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Cuvânt înainte 


Statistica studiază fenomene de masă, produse sub semnul incertitudinii. 
Fundamentarea deciziilor cu privire la astfel de fenomene, în condiţiile ritmului 
trepidant al vieţii contemporane, necesită tot mai multă informaţie, de o calitate tot 
mai bună, obţinută într-un timp cât mai scurt. Ca răspuns la o asemenea cerere are 
loc perfecționarea metodelor şi instrumentelor de obţinere a datelor statistice, 
precum şi a instrumentelor de calcul. Au fost elaborate programe speciale de 
prelucrare şi analiză statistică, printre care SPSS este unul dintre cele mai actuale, 
mai performante, mai cunoscute şi mai larg răspândite. 

Elaborarea lucrării de faţă a pornit de la o astfel de necesitate. Scopul propus 
este de a-i familiariza pe cei interesaţi cu un instrument modern de calcul si analiză 
a datelor statistice, precum şi cu modul de interpretare statistică a rezultatelor. 


Lucrarea reprezintă primul volum din ciclul ANALIZA STATISTIC A CU SPSS 
SUB WINDOWS: Vol. I — Statistica descriptivă si inferenţială; Vol. II — Statistică 
avansată; Vol. II] — Analiza seriilor de timp. 

Informaţia din această carte este organizată în acord cu programa analitică 
folosită în cursurile universitare de Statistică descriptivă şi Statistică inferenţială. 

Pentru obţinerea informaţiei statistice, în acest volum este întreprins un demers 
care, pe de o parte, se bazează pe conceptele şi metodele clasice ale statisticii şi, pe 
de altă parte, este asistat de calculator prin programul SPSS. Lucrarea este 
structurată astfel încât să permită înțelegerea şi însuşirea conceptelor fundamentale 
ale statisticii şi utilizarea metodelor statistice, folosind programul SPSS pentru 
rezolvarea problemelor de prelucrare şi analiză statistică. 

Dacă până acum se punea accent pe însuşirea conceptelor şi tehnicilor de calcul 
manual al indicatorilor statistici, în această lucrare accentul se mută de la calcul la 
interpretare. Locul timpului consumat cu prelucrarea manua 
prin exploatarea programului SPSS, analizei, simulării şi interpretării rezultatelor. 
Acest lucru este important pentru obţinerea în timp util a unei informaţii statistice 








ă a datelor este cedat, 


de calitate, dintr-o bază de date specifică fenomenelor de masă, cum ar fi datele 
tate dintr-o anchetă statistică sau dintr-un experiment, realizate asupra unor 





rezu 
colectivităţi statistice, pentru care trebuie fundamentate, în timp real, decizii de 


politică economică, socială şi de altă natură. 
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Caracteristica majorá care face din lucrare un instrument pentru profesionisti 
este prezentarea analizei statistice cu SPSS sub Windows. 

Versiunea 10 a SPSS folosită este complet integrată in mediul WINDOWS; 
dezvoltarea instrumentului informatic favorizează utilizarea acestui program in 
analiza datelor statistice. 

Cartea se doreşte a fi un suport didactic pentru statistică, autorizat, complet şi 
actualizat, pentru studenţii de la facultăţile de economie, sociologie, medicină, 
farmacie şi nu numai. Oferă, de asemenea, elemente care o fac utilă practicienilor 
din astfel de domenii. Se pune accent pe folosirea programului SPSS pentru 
aplicarea diferitelor metode statistice de prelucrare a datelor, în special din 
economie, sociologie, medicină, şi pe interpretarea, in condiţii de incertitudine, a 
rezultatelor statistice din output-ul SPSS. 

Într-o lume a relativităţii, ce este mai bine de ales: o certitudine iluzorie 
(deoarece totul este relativ) sau o incertitudine măsurabilă (probabilă)? Răspunsul 
pe care îl dă lucrarea este unul statistic. 

Dedicăm cartea cititorilor de toate vârstele, virusati de freamătul nelinistii 
generate de pasiunea de a găsi calea lucrului bine făcut. 


Dacă sunteţi interesaţi, vă invităm să parcurgeti paginile lucrării Analiza 
statistică cu SPSS sub Windows, elaborată în condiţiile unei colaborări deosebite 
între un statistician — profesor universitar dr. Elisabeta Jaba — şi un informati- 
cian — profesor universitar dr. Ana Grama. 


Autoarele, conştiente că orice lucru este perfectibil, mulțumesc anticipat 
cititorilor pentru bunăvoința de a sesiza neimplinirile si de a le transmite sugestii 
pentru îmbunătăţirea ediţiei actuale. 


Autoarele 
august 2003, laşi 
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SPSS (Statistical Package for the Social Sciences) este unul dintre cele mai 
puternice şi utilizate programe statistice! . Acest pachet integrat asigură 
acoperirea procedeelor specifice din Statistica descriptivă, Statistica 
inferenţială şi Analiza datelor. Programul a devenit deosebit de atractiv pentru 
utilizatori deoarece permite tratarea datelor statistice fără a impune cunoaşterea 
formulelor de calcul, îmbinând posibilitățile de prelucrare statistică cu 
facilităţile oferite de programele de calcul tabelar (Excel, Lotus, Quattro Pro) 
pentru condensarea datelor în tabele şi reprezentarea lor grafică. 

Programul este un produs al firmei SPSS Inc., care s-a impus în domeniul 
realizării de software pentru prelucrarea statistică a datelor, în principal prin 
SPSS şi SYSTAT. 

SPSS a fost creat la Universitatea din Stanford, în anii '60, de către doi 
studenti, Norman Nie si Tex Bull, pentru a asigura gestiunea si analiza datelor 
statistice în domeniul stiintelor sociale si al psihologiei. Ulterior, utilizarea 
programului s-a extins spre economie, medicină etc. În acelaşi timp, evoluţiile 
din domeniul calculatoarelor au marcat şi dezvoltarea SPSS, prin apariția 
imediată a unor noi versiuni. 

Începând cu versiunea 7, realizată în 1995, SPSS a devenit un produs pentru 
Windows, ajungându-se astăzi la versiunea 12. 

După 30 de ani de la crearea sa, SPSS este folosit în peste 2.500 de 
universităţi şi instituţii de învăţământ superior şi în peste 250.000 de instituții 
din diverse sectoare (administraţie, educaţie, lumea afacerilor etc.). 


1.1 Componente şi caracteristici 


1.1.1 Modulele SPSS 


La ora actuală, SPSS este realizat sub formă modulară, fiecare utilizator 
putându-și achiziţiona doar acele componente care îi sunt necesare. Cele mai 
comercializate” module sunt: Base module, Professional Statistics, Advanced 
Statistics, Tables, Exact Tests, CHIAD şi Categories. 
Modulul de bazá — Base module — permite gestionarea datelor si fisierelor, 

transformarea datelor, precum si prelucrarea statisticá a acestora prin: 

calculul frecvențelor, al indicatorilor tendinței centrale, dispersiei şi 

formei unei distribuții; 





|. Din această categorie mai fac parte: STATISTICA, SAS, SYSTAT, S-PLUS, R-project ete 
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calculul măsurilor de asociere şi testarea independenţei probabilistice 
pentru date incluse în tabelele de contingentá; 

compararea mediilor, proportiilor si dispersiilor eşantioanelor; 

analiza unifactorială a variantei; 

calculul coeficienţilor de corelație Pearson, Kendall, Spearman; 

analiza de regresie liniară; 

teste neparametrice. 


De asemenea, acest modul permite şi reprezentarea grafică a datelor sub 
formă de histograme, diagrame de structură, nor de puncte etc. 

Modulul Professional Statistics include proceduri pentru cercetarea relațiilor 
dintre variabile, folosind ca metode: 


analiza de discriminant; 
analiza factorialà; 

analiza de clusteri; 

scalarea multidimensională; 
regresia ponderată; 

analiza fidelității. 


Modulul Advanced Statistics permite efectuarea unor prelucrări statistice 
complicate, apelând la următoarele metode: 


analiza de regresie logistică; 

diverse extinderi ale analizei unifactoriale a variantei ANOVA; 
analiza variantei multifactorială MANOVA; 

analiza logliniară; 

analiza de regresie neliniará; 

analiza probit si logit; 

analiza duratei de viatà; 





analiza de supravietuire Kaplan-Meier; 
modelul liniar general. 


Modulul Tables permite condensarea datelor în tabele cu una, două sau trei 


dimensiuni, fiecare dimensiune fiind definită printr-o variabilă sau printr-un 
[ 


grup de variabile. Pe lângă valorile variabilelor, tabelele pot contine frecvențe 


si valori ale unor indicatori statistici (medie, abatere standard etc.). 


Modulul Exact Tests determină nivelul de semnificație (valorile p sau Sig.) 


pentru: 


- teste neparametrice aplicate pe un esantion, pe douà esantioane, inde- 


pendente sau perechi, $i pe k esantioane dependente sau independente; 


teste aplicate tabelelor de contingentá 2x2 Si IxC; 
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— teste de semnificaţie pentru coeficienţii de corelație Pearson şi Spearman; 
— teste referitoare la relaţiile dintre variabile măsurate pe scală nominală 
sau pe scală ordinală. 


Modulul CHIAD (Chi-squared Automatic Interaction Detector) aplică 
algoritmi de segmentare pentru împărțirea unei populaţii în grupe disjuncte, 
care diferă între ele în funcţie de un criteriu precizat. La fiecare pas al 
algoritmului, grupele constituite sunt vizualizate sub forma dendrogramelor. 

Modulul Categories este folosit pentru determinarea influenței exercitate de 
caracteristicile produselor şi serviciilor asupra preferintei consumatorilor. 
Pentru identificarea asemănării sau deosebirii dintre obiecte, acest modul 
vizualizează prin puncte obiectele analizate. 

Modulul TRENDS asigură analiza şi reprezentarea grafică a seriilor de timp. 
Este posibilă estimarea coeficienţilor modelului de trend prin următoarele 
tehnici: 

- procedee de ajustare; 

— metode de regresie; 

— analiza Box-Jenkins (ARIMA); 

— procedee de descompunere sezonieră, pentru determinarea factorilor 

aditivi şi multiplicativi, în cazul seriilor de timp cu caracter sezonier; 

— analiza componentei aleatorii. 


1.1.2 Caracteristici ale SPSS 


Dacă ar fi să caracterizăm acest produs prin acronimul de apelare, SPSS s-ar 
putea evidenția prin: 
e Soluţii pentru probleme complexe; 
e Prezentarea sugestivă a rezultatelor; 
e Supleţe în stabilirea condiţiilor de prelucrare a datelor prezente într-o 
mare diversitate; 
e Simplitate în exploatare. 


Soluţii pentru probleme complexe. Având la dispoziţie instrumente specifice 
metodelor statistice avansate, SPSS permite rezolvarea problemelor oricât de 
complexe, din diverse domenii, oferind soluţii care să asigure o cunoaştere mai 
bună a fenomenelor cercetate şi, implicit, să sprijine procesul de fundamentare 
a deciziilor. 
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Prezentarea sugestivd a rezultatelor. Utilizatorul are control deplin asupra 
tuturor variabilelor prelucrate, stabilind modul de afisare a valorilor din listele 
de ieşire (lungime, număr de zecimale) şi ce text să fie scris în locul 
denumirilor variabilelor (atunci când acestea nu sunt destul de sugestive) sau 
în locul valorilor variabilelor (dacă în fişierul de date s-au introdus coduri). 
Pentru mai multe detalii, vezi paragraful 3.4. 

Listele de rezultate, tabelele şi graficele realizate de SPSS pot fi incluse în 
rapoarte, aşa cum se prezintă pe ecran, sau într-o formă modificată prin: 

— editarea de texte; 

stabilirea caracteristicilor fonturilor/caracterelor (tip, stil, mărime, culoare); 

- modificarea desenelor prin deplasarea şi/sau rotirea axelor ori schim- 

barea tipului de grafic; 

- ascunderea unor variabile din tabele; 

reorganizarea informaţiilor în tabele (de exemplu, un tabel de frecvenţe 
care conţine pe linii răspunsurile la un chestionar, iar pe coloane 
localitatea de domiciliu şi, în cadrul fiecărei localităţi, sexul clienţilor, 
poate fi transformat într-un tabel cu numai două coloane, corespunzător 
sexului, şi cu grupe de linii, câte o grupă pentru fiecare localitate). 


Toate aceste operaţii sunt uşor de executat, datorită existenţei a trei editoare: 
de text, de tabele si de grafice. Rezultatele prelucrărilor statistice se pot 
vizualiza prin tabele de diverse formate şi prin multiple tipuri de reprezentări 
grafice: histograme, diagrame „coloane ” — izolate sau grupate —, diagrame de 
structură, nor de puncte — în care punctele corespunzătoare unor grupe diferite 
sunt colorate diferit —, diagrame „bare” — care indică în același timp media, 
valorile extreme şi repartiția valorilor unei variabile pentru valori diferite ale 
altei variabile (de exemplu, reprezentarea grafică a distribuţiei după vârsta 
persoanelor, în funcţie de localitatea de domiciliu). În grafice, se depistează 
rapid valorile „aberante”, valori izolate, semnificativ diferite de restul datelor 
din fişier (outlier-i). 


Suplefe în stabilirea condiţiilor de prelucrare a datelor. Domeniile diferite în 
care SPSS îşi găseşte aplicare oferă o mare diversitate a condiţiilor de 
prelucrare. SPSS permite realizarea oricărei variante de prelucrare, ori de câte 
ori este nevoie, la nivelul întregii baze de date sau la nivelul unui subansamblu 
de date selectat. 

Dacă un grup de prelucrări se efectuează periodic (de exemplu, dacă inte- 
resează situația zilnică a vânzărilor pe magazine şi produse), întreaga 
succesiune de căutări prin meniuri şi de alegeri de opţiuni nu se repetă de 
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fiecare dată. SPSS poate înregistra într-un fişier de comenzi toate aceste 
operaţii. Ulterior, fişierul va fi rulat ori de câte ori este necesar. În plus, fişierul 
poate fi actualizat, în sensul că i se pot adăuga sau şterge comenzi. 

Utilizatorul poate alege cazurile care să fie luate în considerare la efectuarea 
prelucrărilor, formulând condiții asupra uneia sau mai multor v: riabile. De 
asemenea, utilizatorul poate decide modul în care să fie tratate de SPSS 
cazurile în care valoarea unei variabile nu este cunoscută sau nu prezintă 
interes pentru cercetare. Ele pot fi sau nu incluse în calcule. 

Înainte de efectuarea prelucrărilor statistice, SPSS poate modifica automat 





datele pe baza unor algoritmi indicati de utilizator pentru recodificarea 
valorilor sau prin aplicarea unor funcții matematice. De exemplu, într-un fișier 
în care cazurile sunt reprezentate de diverse mărfuri, iar variabilele de însuşirile 
acestora, preţurile mărfurilor pot fi schimbate prin adăugarea TVA sau toate 


mărfurile produse înainte de 2000 pot primi aceeaşi valoare a v ariabilei „data 


de fabricaţie”, care să semnifice „înainte de 2000”. 


Simplitate în exploatare. SPSS este un program care poate fi exploatat şi de 
persoane mai puțin initiate în statistică. Meniul Help permite accesul la un 
glosar de termeni care prezintă semnificaţia acestora, în meniuri şi casete de 
dialog, iar componenta Tutorial on-line aduce explicaţii şi exemple care permit 
orientarea rapidă printre numeroasele prelucrări care pot fi realizate. 

Pentru orice noțiune, dintr-o căsuță de dialog sau chiar dintr-o listă de ieşire, 
se obţine afişarea unui text explicativ (help/ajutor contextual) dacă se alege 


opţiunea What's This?. 

Cát priveste exploatarea propriu-zisă, SPSS asigură simplitate în 
manevrarea datelor de intrare. Introducerea şi modificarea datelor este o 
operație simplă datorită existentei unui editor de tabele de tip spreadsheet. Pe 
ecran este afişat un tabel cu linii şi coloane. Liniile corespund cazurilor 
(subiecti care răspund unui chestionar sau obiecte observate), iar coloanele 
contin variabilele (răspunsuri date de subiecti sau rezultatele unor măsurători 
ori observaţii). Nu există limitări în privința numărului de cazuri sau variabile 
care pot fi incluse în tabel (fişier). Utilizatorul poate „naviga” prin acest tabel, 
după dorință, analizând valorile existente, schimbând unele date, adăugând 


si variabile. SPSS adaptează automat dimensiunile tabelului, 


sau 


ştergând cazuri 
astfel încât să nu se piardă nici o valoare introdusă. 





SPSS asigură prelucrarea datelor preluate din registrele de lucru E 
In acelaşi timp, 


xcel, 
2-3. bazele de date dBase sau fişierele de text ASCII 
eate in SPSS pot fi exportate in Excel, Lotus 1-2-3 sau fişiere text 


Lotus 1-2 





fisierele c 


ASCII. 
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Rezumánd cele de mai sus, se poate aprecia cá SPSS este un produs orientat 
spre utilizatorul-analist şi permite: 

- analiza datelor sub multiple aspecte; 
extinderea datelor cercetărilor realizate pe un eşantion, la nivel national: 
construirea tabelelor de ieşire în diverse forme, inclusiv cu totaluri ŞI 
structuri pe orizontală şi verticală: 

- construirea diagramelor sub diferite forme (linii, bare, sectoare etc.); 

- crearea prezentărilor şi a rapoartelor; 

- utilizarea datelor în regim interactiv şi construirea seturilor de funcții ale 
sistemului pentru folosirea lor repetată (automatizarea analizei datelor): 

— exploatarea facilitátilor oferite de Internet; 

- elaborarea unor programe de introducere si control al datelor. 


1.2 Sesiunea de lucru SPSS 


Perioada de timp în care sunt exploatate facilităţile oferite de SPSS poartă 
numele de sesiune de lucru. În acest interval utilizatorul lansează comenzi 
pentru realizarea anumitor operaţii, iar sistemul afişează rezultate şi/sau mesaje. 
Dialogul utilizator-calculator este interactiv, interfața avantajând chiar şi un 
utilizator începător, în sensul că ferestrele deschise oferă variantele de lucru. 
din care se poate alege succesiunea etapelor pe care trebuie să le urmeze în 
prelucrarea datelor. Acest lucru este posibil pentru că programul citeşte datele 
$i le transformă la cerere, prin operaţii matematice şi statistice. 


1.2.1 Deschiderea şi închiderea unei sesiuni de lucru SPSS 


După instalare?, pachetul SPSS, pentru a fi exploatat, poate fi lansat în două 
moduri: 
- folosind pictograma SPSS de pe suprafața Desktop (vezi figura 1.1), 
dacă anterior a fost creată o scurtătură (Shortcut); 





2. Instalarea este operaţia prin care produsul-program SPSS este încărcat de pe un suport 


extern (numit Kit de instalare — CD sau dischetă) pe hard disk-ul sistemului de calcul. 
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Figura 1.1 Scurtátura SPSS 
_ folosind din bara de task-uri 3 butonul Start, din care se selecteazá 
succesiv: Programs — SPSS for Windows (vezi figura 1.2). 
Observatie! In aceastá lucrare, se utilizeazá ca sistem de operare Windows 
XP. 





E Z 























Figura 1.2 Apelarea SPSS din meniul Start 


închiderea unei sesiuni de lucru SPSS se poate realiza prin: 
- butonul I] din bara de titlu a unei ferestre principale; 
— comanda Exit din meniul File; 

comanda Close (sau combinația de taste Alt + F4) din meniul de control 


al unei ferestre . 





ă/lucrare sau grup de acțiuni ce formează o unitate 
mului de operare (în cazul de față Windows, care, se 







titasking) 


at ferestrelor Windows, Iar pictograma de activare este plasată în 





4. Meniul de control este atas 
partea stângă a bare! de titlu (prima linie dintr-o fereastră Windows) 
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1.2.2 Interfata SPSS 


SPSS exploateazá o interfatá de tip WIMP (Window, Icon, Mouse, Pulldown), 
in care elementele de bazá sunt ferestrele, pictogramele (icoanele), mouse-ul si 
meniurile derulante (pulldown menus). 


Ferestrele sunt zone/portiuni de pe ecran tratate ca elemente de sine 
stătătoare, cu caracteristici proprii, care determină acţiunile ce se pot executa în 
cadrul lor. O fereastră este afişată ca urmare a lansării unei anumite operaţii. 

Ferestrele pot fi principale şi de dialog. Cele principale sunt subordonate 
direct operațiilor declanşate, iar cele de dialog permit utilizatorului să 
stabilească sau să selecteze condiţiile de derulare a operaţiilor. 


Pictogramele se prezintă sub forma unor mici imagini însoţite de un text 
care sugerează programul, funcția sau comanda pentru care au fost create. 
Practic ele sunt scurtături (shortcut-uri) pentru programe, comenzi etc. De 
regulă, ele apar pe suprafaţa Desktop sau sunt plasate în barele de instrumente 
(Toolbars) ale ferestrelor principale. 


Mouse-ul este dispozitivul periferic de intrare folosit pentru selectarea şi 
lansarea rapidă a comenzilor şi este aproape indispensabil pentru o interfață 
grafică. Face parte din configurația minimă a unui sistem electronic de calcul. 


Meniurile reprezintă elemente prin care i se oferă utilizatorului posibilitatea 
selectării unei anumite opţiuni dintr-o mulţime finită. 
Un meniu conţine următoarele elemente (vezi figura 1.3): 
— bara meniu (menu bar); 
— opțiunile barei meniu (pad-uri); 
submeniuri (popup-uri sau submenu-uri); 
opţiunile submeniurilor (bar-uri). 
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Figura 1.3 Organizarea meniurilor 


1 (menu bar) este structurată pe ori izontalá si asigurá organizarea 


Bara meniu 
În această bară sunt 


tuturor celorlalte elemente componente ale unui meniu. 
prin numele lor, sugerează funcțiile pe care le pot 
meniu. De re gulă, un pad are în subordine un 
i opţiuni (bar-uri) organizate pe 


plasate pad-urile care 
indeplini optiunile barei 
submeniu (popup) in structura căruia intr: 


verticală 


1.3 Ferestrele SPSS 


SPSS lucrează cu mai multe ferestre diferite. fiecăreia dintre ele fiindu-i asociat 


un anumit tip de fişier. Dintre acestea, pentru : naliza datelor, cele mai frecvent 


utilizate sunt ferestrele Data Editor, Syntax Editor şi Output Viewer. Pe lângă 
acestea sunt lizate si alte ferestre, specializate in editarea de text, grafic 
tabele. 

Fereastra de editare (Data Editor) se deschide implicit la -e SPSS si 
este folosită pentru 1 introducerea, modificarea sau ştergerea datele 1 format 
spreadsheet. Intr-o fereastrá de editar poate fi prezentat continutul unui fişier 


de date care a fost selectat dintr- j listă de fişiere create anterior (în SPSS, 
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Excel, Statistică etc.) sau poate fi creată o nouă foaie de date. Această fereastră 
recunoaşte fişierele de date care au extensia implicită .sav. 

Fereastra de sintaxă (Syntax Editor) este folosită pentru a genera programe 
de comenzi pe care dorim să le  executám asupra datelor (de exemplu, 
transformarea datelor, calculul unor noi variabile ş.a.). Opțiunile selectate în 
casetele de dialog sunt afişate în fereastra de sintaxă sub formă de comenzi. 
Acestei ferestre îi sunt specifice fişierele de tip .sps. 

Fereastra de rezultate (Output Viewer) devine disponibilă automat după ce a 
fost efectuată o comandă de analiză a datelor. În această fereastră, sunt afişate 
rezultate statistice, tabele şi grafice care au asociate ferestre distincte. 

Fereastra de editarea a rezultatelor (Text Output Editor) este folosită pentru 
modificarea textului rezultat, care nu a fost afişat în tabele pivot. 

Fereastra Pivot Table (Pivot Table Editor) oferă multiple posibilităţi de 
modificare a tabelelor pivot: editare text, schimbarea datelor din rânduri şi 
coloane, adăugarea de culori, crearea unor tabele multidimensionale, 
ascunderea sau afişarea selectivă a rezultatelor. 

Fereastra de editare a graficelor (Chart Editor) permite modificarea 
elementelor unui grafic (axe, scale, diagramă, legendă etc.). 


1.3.1 Fereastra Data Editor 


În fereastra Data Editor sunt afişate datele de lucru. Acestea sunt aranjate în 
format tabel (spreadsheet), care contine coloane şi linii. La intersecţia acestora 
sunt celulele (casetele, cásutele) în care se introduc datele. La un moment dat, 
este activă (curentă) o singură celulă, cea în care este plasat cursorul. Celula 
curentă este scoasă în evidență printr-un chenar îngroșat. Trecerea de la o 
celulă la alta se realizează prin clic de mouse în noua celulă, sau de la tastatură 
cu ajutorul tastelor de control al mouse-ului (tastele săgeți şi PageUp 
PageDown). 

Întotdeauna, coloanele tabelului reprezintă variabilele cercetării. De altfel, 
denumirea coloanelor — var — sugerează conținutul acestora. Liniile tabelului 
sunt numerotate şi reprezintă cazurile (subiecții sau participanții la cercetare). 

Fereastra Data Editor contine două foi: Data View si Variable View” (vezi 
figura 1.4). La un moment dat este activă/vizibilă una singură, si anume cea în 





5. Data View este ca un worksheet (foaie de calcul) din programul de calcul tabelar Ex 





6. Variable View este ca o fereastră Table Designer view din sistemele de gestiune a bazelor 


de date 4cces sau FoxPro 

















24 Analiza statistică cu SPSS sub Windows 





care este plasat cursorul (pointer-ul sistem). Fiecare foaie are, in partea de jos a 
suprafeţei de lucru, câte o etichetă (Label) cu numele ei. Trecerea dintr-o foaie 
în alta se realizează printr-un clic de mouse de pe eticheta proprie foii 
respective. La deschiderea editorului de texte, este vizibilă foaia Data View 
care conţine datele brute. În aparență, cea de a doua foaie (Variable View) este 
similară cu prima, dar ea contine nu date, ci informaţii despre variabilele de 
analizat (nume — Name, tip — Type, lungime — Width etc.). 


























Figura 1.4 Fereastra Data Editor cu foile Data View si Variable View 


Până la versiunea 10 SPSS, fereastra Data Editor permitea deschiderea, la 
un moment dat, a unei singure baze de date (set de date). Începând cu această 
versiune, pot fi deschise, în acelaşi timp, mai multe ferestre Data Editor, fiecare 
conținând o altă bază de date. Activă este însă una singură şi se numeşte bază 
de date de lucru (working datasets). Asupra acesteia sunt executate toate 
manipulările, funcţiile statistice şi alte proceduri SPSS. 

Ca orice fereastră Windows, şi cea a editorului de texte SPSS organizează 
mai multe meniuri, foarte utile pentru execuţia unor operaţii variate asupra 


datelor. 
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1.3.2 Fereastra Syntax Editor 


Versiunile mai recente ale SPSS contin meniuri pull-down şi casete de dialog 
care permit lansarea comenzilor SPSS fárá a scrie sintaxa acestora. Tutorialele 
SPSS se concentreazá pe utilizarea casetelor de dialog pentru executia 
procedurilor. 
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9 SPSS Processor is ready 











Figura 1.5 Fereastra SPSS Syntax Editor 


Există şi situaţii in care casetele de dialog nu pot răspunde tuturor cererilor 
de prelucrare. Pe de o parte, nu toate procedurile de prelucrare sunt disponibile 
în casetele de dialog, motiv pentru care se impune utilizarea Syntax Editor-ului. 
Pe de altă parte, există situaţii în care procedurile nu pot fi salvate ca sintaxă 
pentru a fi relansate ulterior. Casetele de dialog disponibile în meniurile pull- 
-down sunt prevăzute cu câte un buton de comandă Paste care are rolul de a 
„tipări” sintaxa pentru procedura realizată prin mediul oferit de caseta de 
dialog în fereastra Syntax Editor (vezi figura 1.5). 
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Procedura astfel obținută poate fi salvată şi ulterior executată, dacă baza de 
date activă în fereastra Data Editor conţine variabile cu acelaşi nume. Fişierul 
salvat are extensia .sps. Salvarea sintaxei este utilă mai ales atunci când aceeaşi 
analiză trebuie executată şi asupra altei baze de date, dar care conţine aceleaşi 


variabile. 


1.3.3 Fereastra Output Viewer 


Toate rezultatele obţinute din analizele statistice sunt afişate în fereastra Output 
Viewer. Această fereastră se aseamănă cu fereastra Windows Explorer şi se 
deschide doar dacă s-au lansat comenzi din meniurile Analyze sau Graphs. 

Fereastra Output Viewer este structurată în două cadre/zone (vezi figura 1.6). 
Cadrul din stânga (cuprinsul/structura) prezintă, sub forma unei schițe, 
obiectele conţinute în fereastră. Elementele din schiță se referă la titlu, note şi 
denumirea rezultatelor statistice propriu-zise (Statistică descriptivă — 
Descriptives, Regresie — Regression, Grafic — Graph etc.). 

În al doilea cadru, cel din dreapta ferestrei (conținutul), sunt afişate 
rezultatele obţinute prin respectiva analiză. Toate aceste obiecte pot fi 
modificate, copiate, mutate sau şterse. 

Rezultatele propriu-zise sunt prezentate sub formă tabelară sau grafică. Din 
acest motiv, SPSS mai are asociate încă două ferestre, Pivot Table şi Chart 
Editor, active atunci când se doreşte afişarea (deschiderea) sau modificarea 
rezultatelor. Operația este posibilă fie din meniul rapid”, fie din meniul Edit, 
folosind comanda SPSS Pivot Table Object, Edit/Open (vezi figura 1.7) şi 
respectiv SPSS Chart Object, Open (vezi figura 1.8 ). Atunci când rezultatele 
nu sunt afişate în tabele pivot, modificarea este posibilă în fereastra Text Editor 
Output. 





Meniul rapid se activeazá cu butonul din dreapta al mouse-ului. 
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Figura 1.7 Meniul rapid din fereastra Output Viewer 
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Figura 1.8 Meniul Edit din fereastra Output Viewer 


Din fereastra Output Viewer, prin meniul rapid, comanda Create/Edit 
Autoscript, se deschide o nouá fereastrá Scripts Viewer care este similará unei 
ferestre Visual Basic si in care sunt afigate subrutinele programului generat 
(vezi figura 1.9). 
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Figura 1.9 Fereastra Autoscript 
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Trebuie făcută precizarea că atât fereastra Output, cât şi ferestrele asociate ei 
plasează în bara de sarcini/task-uri butoane distincte, corespunzătoare 
operaţiilor de obţinere, extragere sau editare a rezultatelor (vezi figura 1.10). 





| A & ÎI || Ehintroducere 2...| B Jesc Paint Sho... | 1991.5, Gen... ză Output - SPs... | EE 





Pivot Tab...| [m] Chart! - SP55 .. | 





Figura 1.10 Bara de task-uri 


1.3.4 Obiecte de control in ferestrele SPSS 


Interfata SPSS oferá o serie de elemente, numite obiecte de control, care 
simplifică/uşurează dialogul utilizatorului cu sistemul de calcul. Aceste 
elemente se regăsesc în toate produsele program care rulează sub sistemul de 
operare Windows. În figura 1.11 sunt prezentate principalele obiecte de control 
din fereastra cadrului de pagină General, subordonată comenzii Options din 
meniul Edit. 


Etichetă de pagină 
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Figura 1.11 Obiecte de control în ferestrele SPSS 
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Caseta de text/de editare este o zoná in care utilizatorul, folosind comenzi de 
editare, poate prelua, introduce sau modifica text (nume de foldere, fişiere, 
variabile, expresii etc.). 

Caseta cu listă este o zonă în care sistemul afişează total sau partial un grup 
de elemente din care se poate selecta unul singur. 

Caseta combinată conţine caracteristicile atât ale unei casete text, cât şi ale 
unei casete cu listă, existând posibilitatea introducerii/modificării de text sau 
selectarea unui element din lista derulantă ascunsă. 

Butoanele de comandă sunt zone sub formă de dreptunghi în care apare 
numele butonului. Acest nume sugerează funcția butonului. Unele butoane au 
în plus trei puncte de suspensie ce indică deschiderea unei ferestre de dialog 
suplimentare. Fiecare fereastră are un buton implicit, cel care are marginile 
umbrite (de exemplu, pentru fereastra cadrului de pagină General, butonul 
implicit este OK). 

Butoanele de opțiuni (numite şi butoane radio) sunt elemente care se exclud 
reciproc, limitând utilizatorul la selectarea unei singure variante din cele 
posibile. Se prezintă sub forma unui cerc cu un text explicativ în dreapta lor. 
Butonul selectat are în interiorul lui un punct. 

Casetele de validare sunt zone reprezentate sub formă de pătrat cu un text 
explicativ la dreapta. Aceste obiecte sunt folosite, în general, pentru a indica 
valoarea de adevăr (cu bifá — V ) sau neadevár (fără bifá) a condiției impuse de 
funcţia casetei. 

Caseta de modificare valorică (numită şi casetă de incrementare/ 
decrementare) este o zonă care permite precizarea unui număr sau a unei valori. 
Casetele au o valoare minimă şi una maximă. În acest interval, utilizatorul 
poate stabili orice valoare prin tastarea unui număr sau prin clic repetat pe una 
din săgeți (superioară sau inferioară). 

Cadrul de pagină reprezintă rezultatul unui mecanism prin care sunt 
organizate în module distincte (pagini) elemente cu caracteristici comune. 

Eticheta de pagină reprezintă un şir invariabil de caractere (text), afişat pe 
elementul căruia îi este asociat (de exemplu, numele cadrului de pagină). 

În afara acestor obiecte de control, prezente în fereastra cadrului de pagină 
Options, General, dialogul utilizator-sistem este asigurat şi prin intermediul 


————— 

VEM ; | 4 TE j 
butoanelor ságeti: >] ŞI , folosite pentru transferul elementelor 
selectate dintr-o zonă în alta. În general, aceste săgeți sunt prezente în ferestrele 
de dialog (vezi figura 1.12). 
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Figura 1.12 Obiecte de control în ferestrele SPSS 


1.4 Gestiunea fisierelor SPSS 


1.4.1 Tipuri de fisiere 


SPSS utilizează patru tipuri de fişiere: date, rezultate, grafice şi sintaxă. Tabelul 
l.l prezintă tipurile de fişiere cu care se lucrează într-o sesiune SPSS şi 
principalele lor caracteristici. 


Fişierul de date este specific ferestrei Data Editor şi este identificat prin 
extensia .sav*, Numele implicit este Untitled, urmat de un număr care semnifică 
al câtelea fişier de date este creat în sesiunea curentă de lucru. Pentru o 
identificare rapidă a fişierelor de date sunt recomandate nume care să sugereze 
conţinutul informaţional ori apartenența la o anumită aplicaţie sau un anumit 
utilizator. Comenzile statistice şi graficele operează asupra datelor organizate 
în astfel de fişiere. 


8. Pentru versiunile SPSS sub MS-DOS, extensia fişierelor de date este .sys. 











































































32 Analiza statistică cu SPSS sub Windows 
Tabelul 1.1 Tipuri de fişiere SPSS 
Pictogramá | Extensie| Nume | Fereastrá Descriere 
| implicit | asociată 
.Sav Untitled | Data Editor | Fişier de date. Este folosit 
pentru definirea, 
| introducerea sau editarea 
datelor şi executarea 
| testelor statistice. 
Ed Spo Output Output Fişier de rezultate. Conține 
Viewer rezultatele prelucrărilor 
statistice (tabele, grafice şi 
informaţii) 
.Sps Syntax Syntax Fişier de sintaxă. Conţine 
Editor comenzi pentru analiza 
datelor organizate în fişiere 
_____| de date 
.cht Chart Chart Fişier de grafice. Conţine 
Editor reprezentarea grafică a 






























Fişierul de rezultate este specific ferestrei de rezultate Output Viewer şi este 
recunoscut după extensia .spo. Numele implicit este Output, urmat de numărul 
de ordine al fişierului. Pot fi mai multe fişiere de rezultate stocate în aceeaşi 
fereastră de rezultate. Fişierul activ la un moment dat este specificat în 
fereastra de rezultate prin simbolul > (săgeată la dreapta) în dreptul său, atât 
în cadrul din stânga, cât şi în cel din dreapta ferestrei Output Viewer (vezi 


figura 1.6). 


Fişierul de grafice este asociat ferestrei de grafice şi are extensia .chr. 
Opțiunea grafică, într-o procedură statistică, permite reprezentarea rezultatelor 


într-o fereastră specifică, Chart Editor. 


Fişierul de sintaxă este subordonat ferestrei Syntax Editor şi are extensia .sps. 
Un fişier de sintaxă reprezintă un ansamblu de comenzi care realizează analiza 
informaţiilor stocate într-un fişier de date. 





datelor din fişierul de date 
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1.4.2 Operații cu fişiere SPSS 


Crearea fişierelor SPSS presupune exploatarea facilitátilor oferite de ferestrele 
cărora le sunt subordonate. 


gl 


Salvarea unui fişier se realizează prin pictograma Save == din bara cu 
instrumente Standard sau cu ajutorul comenzilor Save sau Save As din meniul 
File. Aceste comenzi deschid fereastra Save Data As (vezi figura 1.13), in care 
se pot stabili: 

- numele fişierului (File name); 

- tipul fişierului (Save as type); 

- locația în care să aibă loc salvarea (Save In): directorul/folderul/calea de 
directoare/foldere, inclusiv un director creat pe /oc cu pictograma 


Create New Folder Y . 














Save in | — exemple | € [t] e 








File name: [dasdasd 
Save as type: [SPSS [sav] >] Paste | 
Z Cancel 


Figura 1.13 Fereastra Save Data As 














Pentru deschiderea fişierelor se foloseşte pictograma Open | din bara cu 
instrumente Standard sau comanda Open din meniul File. Aceste opţiuni 
deschid fereastra Open File (vezi figura 1.14), în care este posibilă şi 
localizarea unui fişier (în zona Look in:), dacă acesta nu se află în folderul 
curent în acel moment. 
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Look in: | — exemple ai DOES 
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[s] Output 1 spa 
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File name: [Output spo m li E | Üpen 


Files of type fa Files (*.*) i 











Cancel 





Figura 1.14 Fereastra Open File 





Închiderea unui fişier SPSS se realizează prin butonul È$, asociat ferestrei 
subordonate acelui fişier, sau o dată cu terminarea unei sesiuni de lucru SPSS. 
prin comanda Exit din meniul File (caz în care se închid toate fişierele deschise 
în respectiva sesiune). La închidere. SPSS interogheazá utilizatorul dacă 
salvează sau nu fişierul creat ori modificările realizate într-un fişier creat 
anterior şi deschis în sesiunea curentă (vezi figura 1.15). 








LA Save contents of output viewer to C:\Program File 

















Figura 1.15 Butoanele subordonate operatiei de salvare 


1.4.3 Barele cu instrumente SPSS 


Barele cu instrumente (toolbars) se constituie din scurtături create pentru cele 
mai apelate comenzi din meniurile SPSS. 

Principalele bare de instrumente în SPSS sunt: 

— Data Editor; 
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lacă 


real 
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- Syntax Editor; 
— Viewer Standard; 
Viewer Outlining; 


— Draft Viewer Standard; 
— Draft Viewer Formatting; 


— Chart Standard; 
— Chart Formatting; 
- Script Editor. 


Pe lángá aceste instrumente, utilizatorul poate sá-si defineascá bare noi, 
activarea butonului New Toolbar (vezi figura 1.16). 
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[v Draft Viewer 





[v Chart 
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Din fereastra Toolbar 


noua bará (vezi figura 1.17). 
Asa cum se poate adăuga o bară de instrumente, tot la fel poate fi ştearsă, 
dacă se foloseşte butonul de comandă Delete din fereastra Show Toolbars (vezi 


figura 1.16). 


Figura 1.16 Crearea unei bare de instrumente 


Properties se stabileşte numele noii bare de 
instrumente. iar în fereastra Customize Toolbar (deschisă cu butonul de 
comandă Customize) se stabilesc butoanele/pictogramele ce se vor afişa în 
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Figura 1.17 Fereastra de personalizare a unei bare de instrumente 


Pentru afişarea sau ascunderea acestor bare/linii, din meniul View se 
selectează comanda Toolbars. Din fereastra Show Toolbars. din lista ascunsă 
Document Type se alege All (vezi figura 1.18). Fiecare bară este prevăzută cu o 
casetă de validare care, dacă este activată (are bifa) sau nu (nu are bifa), 
determină afişarea, respectiv ascunderea barei subordonate. Caseta de dialog 
Show Tool Tips, dacă este selectată, determină activarea help-ului contextual 
care, atunci când indicatorul de mouse este pozitionat pe un buton, afişează 
numele comenzii asociate acelui buton. 
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Figura 1.18 Fereastra Show Toolbars 
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Prezentám in continuare cele mai folosite butoane, din cele mai apelate bare 
de instrumente — Data Editor si Chart Standard. 


Data Editor Toolbar. Aceastá bará de instrumente apare cánd fereastra Data 
Editor este activatá. Ea contine butoane-scurtáturi pentru cel mai frecvent 
utilizate actiuni: deschiderea sau salvarea unui figier, tipárirea datelor si 
rezultatelor, introducerea datelor etc. (vezi tabelul 1.2). 


Tabelul 1.2 Butoane in bara de instrumente Data Editor 



























































Buton Efect i 
mm Deschiderea unui fişier de date (.sav) sau de rezultate (.spo) i 
i-r | Salvarea unui fişier de date (.sav) sau de rezultate (.spo) 
e Tipărirea fişierelor de date sau de rezultate 
se te) "| Anularea acţiunii precedente 
è | | É 
1sá e | Revenirea la acţiunea precedentă 
~O Accesarea casetei de dialog Chart | 
a), t Caută anumite cazuri (rând) 
« = | Caută o anumită variabilă (coloană) si afişează informații despre aceasta | 
ză dà | Caută date (numai în Dara View) 
P | | [nsereazá un caz (un rând) i 
ees Inserează o variabilă (o coloană) | 
ES Accesează caseta de dialog Split File 
| sk Acceseazá caseta de dialog Weight Cases 
E Acceseazá caseta de dialog Select Cases | 
O Accesează seturi pentru caseta de dialog Variables 





Chart Standard Toolbar. Linia Chart Standard apare în fereastra editorului 
de grafice (SPSS Chart Editor) şi conţine butoane-scurtături pentru cel mai 
adesea utilizate acțiuni (vezi tabelul 1.3). 


Tabelul 1.3 Butoane în bara de instrumente Chart Standard Toolbar 
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|t Accesează bara de dialog Line Type | 
ale Accesează caseta de dialog Bar Type 
[an] Accesează caseta de dialog Bar Label Style 
| pu Accesează caseta de dialog Point Interpolation ] 
|T[ Modifică stilul textului din grafic | 
xk] Accesează caseta de dialog 3-D Axis Rotation i Kk 4 
t. " Acceseazá caseta de dia og Swap axes E j 
nS . | Accesează caseta de dia og Explode Slice 1 
[> | Accesează caseta de dia og Break Lines 
A] Modifică opțiuni (Bar/Line/Area Options) | i 
i E Setează modul spin (3-D Scaperplor) g 




















1.4.4 Meniurile în SPSS 


Bara meniu conține mai multe meniuri pe care, succint, le prezentăm în 
continuare. 


File. Acest meniu este folosit pentru realizarea operațiilor curente asupra 
fişierelor: deschidere pentru crearea unui nou fişier (New), deschiderea unui 
fişier existent (Open), salvare (Save sau Save As), tipărire (Print), vizualizare 
înainte de tipărire (Print Preview) etc. (vezi figura 1.19). Tot din acest meniu 
se asigură închiderea sesiunii de lucru SPSS (Exit). 
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Figura 1.19 Meniul File 
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Edit. Comenzile acestui meniu opereazá in ferestrele de rezultate si de 
sintaxă şi asigură executarea operaţiilor de copiere şi/sau mutare (Copy, Cut, 
Paste, Paste Variables), ştergere (Delete) şi. căutare rapidă (Find) (vezi figura 


1.20). 
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Figura 1.20 Meniul Edit 


De asemenea, din acest meniu pot fi definite o multitudine de opțiuni care 
gura 1.21). 


personalizeazá mediul de desfăşurare a sesiunii de lucru (vezi 
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Figura 1.21 Fereastra Options din meniul Edit 


View. Acest meniu, prin comenzile subordonate, permite afişarea sau 
neafişarea barei de stare (Status Bar — plasată în partea de jos a monitorului, 
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deasupra barei de task-uri si sub foile Data View si Variable View), a altor bare 
cu instrumente de lucru (Toolbars) sau a grilelor/liniilor din foile ferestrei de 
editare (Grid Lines) (vezi figura 1.22). 















File Edit Data Transform Analyze Graphs Utilities Window Help | 
ze id | à elk dà] ez) az) 8 
Toolbars... " 3 
8: chemo 
Fonts... 
w Grid Lines | status | ] 
1 value Labels 1 
2 Variables Ctri4-T | 
2l 


i Au 





D 





Figura 1.22 Meniul View 
Comanda Fonts deschide fereastra Font in care se pot modifica fisierele ce 
contin fonturi (Font: Arial, Helvetica, Letter Gothic, Tahoma, Times New 
Roman etc.), stilul fonturilor (Font Style: Italic, Bold etc.), precum si mărimea 
fonturilor (Size: 6, 10, 11, 14 etc.) (vezi figura 1.23). 
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Figura 1.23 Fereastra Font din meniul View 


Data. Prin comenzile acestui meniu este „afectat” conţinutul ferestrei Data 
Editor. Poate fi stabilit formatul de afişare a datelor calendaristice şi a timpului 
(Define Dates: zi, zile lucrătoare, săptămână, lună, oră, minut, secundă etc.), se 
pot introduce variabile si cazuri ( Insert Variable, Insert Case), pot fi localizate 





or bare 
trei de 
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rapid, conform unei numerotări, cazurile (Go to Case). Cazurile pot fi sortate 
(Sort Case) crescător (Ascending) sau descrescător (Descending). Facilităţi 
deosebite sunt cele care permit fuzionarea fişierelor (Merge Files) sau 
splitarea/impártirea lor (Split File). De asemenea, este posibilă selectarea 
cazurilor (Select Cases) şi stabilirea ponderii cazurilor (Weight Cases) (vezi 
figura 1.24). 
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Figura 1.24 Meniul Data 


Transform. Acest meniu este utilizat pentru transformarea datelor sau pentru 
crearea unor variabile noi (vezi figura 1.25). 
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Figura 1.25 Meniul Transform 


Analyze. Acest meniu este folosit pentru realizarea procedurilor statistice 
(vezi figura 1.26). 


































Figura 1.26 Meniul Analyze 


Graphs. Comenzile acestui meniu sunt folosite pentru a obtine reprezentarea 
datelor sub formă de grafice: histograme, puncte, diagramă de structură etc 


1.27) 


(vezi figura 1.27 
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Figura 1.27 Meniul Graphs 


Utilities. Acest meniu reuneste, sub forma unui index al comenzilor, cele 
mai utilizate instrumente, cu o scurtă descriere a acestora: informaţii privind 
variabilele curente (Variables), informaţii despre fişierele disponibile (File 


Info). definirea si utilizarea seturilor (Define Sets, Use Sets) (vezi figura 1.28) 
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Figura 1.28 Meniul Utilities 


De asemenea, din acest meniu este posibilă lansarea scripturilor (Run Script) 
şi activarea meniului de editare pentru configurarea personalizată a meniurilor 
(Menu Editor) pentru ferestrele Data Editor, Viewer, Script şi Syntax (vezi 
figura 1.29). 
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Figura 1.29 Fereastra Menu Editor 


Windows. Comenzile meniului Windows asigură comutarea între ferestrele 
diferitelor fişiere deschise, precum şi controlul aranjării acestora pe ecran. 
Help. Acest meniu permite familiarizarea cu SPSS. Cele mai utilizate 


opţiuni sunt Topics, care afiseazá un meniu contextual in functie de subiectul 


precizat de utilizator, si Tutorial, care oferă asistență in învăţarea SPSS (vezi 


figura 1.30). 
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Figura 1.30 Meniul Help 


Caracteristicile SPSS descrise mai sus ne prezintă un produs program care 
oferă facilități de lucru performante pentru o gamă largă de utilizatori care 
folosesc statistica, fie în activitatea practică, fie în cercetarea ştiinţifică. 
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2.1 Obiectul de studiu, metoda si scopul statisticii 


Statistica studiază fenomene de masă, de tip stochastic. Astfel de fenomene îşi au 
originea în existenţa colectivitátilor, ansambluri formate dintr-un număr mare de 
elemente unite între ele prin trăsături esențial comune, care se manifestă şi pot fi 
cunoscute numai la nivelul întregului. Trăsăturile esenţial comune exprimă 
valoarea medie, adică normală, predominantă, reflectată de majoritatea elementelor 
unei colectivități. 





De exemplu, populaţia de o anumită vârstă este distribuită în funcţie de 
.ináltime" după modelul cunoscut sub denumirea de „curba normală” sau 
„clopotul Gauss”. Acest model ne arată că majoritatea indivizilor de aceeaşi vârstă 
au aproximativ aceeaşi înălțime, de la care se abat, progresiv, în plus şi minus, din 
ce în ce mai puțini indivizi. Pentru majoritatea indivizilor dintr-o populaţie, 


înălțimea este consecinţa condiţiilor normale în care se dezvoltă acea populaţie. 





Abaterile de la normal sunt atribuite unui ansamblu de factori care acționează într- 
in sens sau altul şi determină perturbări. 

Modelul distribuţiei 
ocalitatea sau momentul de observare a populației. Ceea ce diferă de la o 


;opulatie la alta, în alte condiţii de spațiu sau de timp, sunt parametrii modelului. 





ndivizilor după înălțime rămâne acelaşi, indiferent de 











Fiind rezultanta acţiunii factorilor esentiali asupra fenomenelor de masă, modelul 
scoate în evidenţă ceea ce este comun în majoritatea cazurilor. 


l'otodatá, trebuie reținut că această influenţă este însoţită şi de acţiunea unor 





factori aleatorii, care duc la apariţia unor perturbări de la ceea ce este normal. 


Aceste perturbări nu rămân constante în timp şi spaţiu. Ca urmare, am putea sti 





care este modul de distribuţie a populaţiei după variabila înălțime, indiferent de 
timpul şi spaţiul de referinţă, dar nu ce înălțime ar înregistra un anume individ din 


colectivitate. 





Prin studiul statistic al fenomenelor se desprind trăsăturile comune, compor- 
area normală a fenomenelor la nivelul ansamblului, nu al fiecărui individ în parte. 
Statistica observă fiecare element al unei colectivităţi în variabilitatea sa si ajunge, 
rin prelucrarea datelor obținute din observarea statistică şi compararea rezulta- 
elor prelucrării, la cunoaşterea întregului. 

Înregistrând aleatoriu fiecare element al unei colectivităţi. în formele sale 


particulare de manifestare în timp, în spaţiu şi din punct de vedere calitativ, 








statistica ajunge, prin metoda sa particulară, să reţină la nivelul întregului numai 
ceea ce este normal, esenţial pentru toate unităţile colectivitátii observate. Cum ar 


spune ( N IC: tafictica ] n înfrootirilo «ri inseri din 71 (eutele infinitezimale" 
pune C. Noica, Statistica /asa intregurile sa iasa din elementele infinitezimale . 





Noica, Jurnal filozofic, Ed. Humanitas, Bucureşti, 1990, p. 57 
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Statistica este o ştiinţă cu un obiect de studiu propriu, o metodă particulară 
şi un scop bine precizat. 


Obiectul de studiu al statisticii îl constituie variația curentă-continuă, în timp, 
în spaţiu şi din punct de vedere calitativ a fenomenelor de tip stochastic din orice 
domeniu al vieţii economico-sociale sau naturale. Particularitatea obiectului de 
studiu al statisticii este dată de un mod specific de a privi elementele vieții 
materiale, şi anume în mişcarea lor curentă-continuă, în timp, în spaţiu şi din 
punct de vedere calitativ. 

Fenomenele, cum precizează profesorul Alexandru Bărbat în Teoria 
statisticii sociale, nu pot deveni obiect de studiu al statisticii în forma lor de 





substanță materială, ci numai sub formă de mişcare, şi anume sub formă de 
mişcări curente-continue privind creşterea, descresterea, diversificarea şi 
modificările „„structurale” ale fenomenelor şi proceselor de tip colectiv”. 

Metoda statisticii este definită ca un ansamblu de principii metodologice, 
procedee şi tehnici care permit producerea informaţiei statistice, pe baza 
observării statistice, a prelucrării şi analizei datelor statistice, precum şi 
fundamentarea deciziilor privind starea şi variabilitatea colectivitàfilor statistice, 
în timp, în spațiu şi din punct de vedere calitativ. (Particularitátile metodei 
statistice sunt prezentate în paragraful 2.3). 


Scopul statisticii este cunoaşterea fenomenelor de masă, caracterizate prin 
variabilitate şi produse sub semnul incertitudinii. Vizează, pe de o parte, 
elaborarea informaţiei statistice necesare fundamentării deciziilor asupra 
colectivităţilor statistice, iar pe de altă parte, descoperirea legilor de 


variabilitate a fenomenelor ce se produc $1 evolueaza suo semnul incertitudinii 


2.2 Ipostaze ale statisticii — ştiinţă şi metodă 
În procesul cunoaşterii, statistica îşi manifestă caracterul sáu dual, fiind 


folosită de către alte discipline ştiinţifice pentru descoperirea legilor proprii 


domeniului lor de studiu. 





Alexandru Bărbat, Teoria statisticii sociale, E.D.P., Bucureşti, 1972, p. 30. 
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2.2.1 Statistica — ştiinţă 


Ca disciplină ştiinţifică, statistica se subdivide, după scopul cunoaşterii, în 
statistică descriptivă, statistică inferentialá şi analiză statistică. 

Statistica descriptivă vizează descrierea stării şi variabilitütii unei colectivităţi 
statistice după una sau mai multe caracteristici. Realizarea acestui obiectiv 
presupune culegerea datelor statistice, prelucrarea si prezentarea lor sintetică, 
fie sub formă numerică prin indicatori statistici, fie sub formă grafică prin 
diagrame şi tabele statistice. În raport cu numărul caracteristicilor considerate 
în planul cunoaşterii, se poate vorbi despre o statistică descriptivă 
unidimensională (statistică descriptivă cu o variabilă), respectiv despre o 
statistică descriptivă bidimensională sau multidimensională (cu două sau mai 
multe variabile). 

Statistica inferenţială a apărut abia după descoperirea legilor probabilistice şi 
construirea teoriei probabilităților ca ştiinţă. S/atistica inferențială vizează 
estimarea caracteristicilor unei colectivităţi pornind de la cunoaşterea unei 
colectivități parțiale şi presupune măsurarea incertitudinii rezultatelor si 
calcularea riscurilor pe care le implică luarea unei decizii fundamentate pe baza 
unei informaţii ce nu poate fi exhaustivă. Principalele probleme ale inferentei 
statistice sunt estimarea parametrilor distribuţiei unei colectivități şi testarea 
ipotezelor statistice. 

Analiza statistică urmăreşte descoperirea a ceea ce este permanent, esenţial, 
legic în variaţia proceselor stochastice şi măsurarea influenţei factorilor care le 
determină variaţia în timp, în spațiu şi din punct de vedere calitativ. În acest scop 
se folosesc, în principal, analiza de regresie, analiza de corelație, ANOVA, 
analiza seriilor de timp. 


2.2.2 Statistica - metodă 


Ca metodă, statistica a câştigat în timp un loc important printre metodele 
ştiinţelor fundamentale: fizică, chimie, biologie, astronomie etc. Astăzi, toate 
disciplinele ştiinţifice care investighează fenomene de masă (ştiinţe economice, 
sociologice, agronomice, meteorologia, genetica, medicina etc.) apelează la 
metoda statisticá pentru descoperirea legilor proprii domeniului lor de studiu, a 
permanentelor si tendintelor care se pot constitui ca elemente de previziune. 

De altfel, in condiţiile în care ritmul dezvoltării si evoluţiei societăţii 
moderne a imprimat un caracter de masă fenomenelor din domeniul tehnic, 
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economic, social, al conducerii afacerilor etc., metoda statistică a devenit un 
instrument indispensabil de cunoaştere. 

Caracterul de masă şi variabilitatea unor astfel de fenomene, sub acțiunea 
factorilor conjuncturali, nu permit cercetarea lor pe baza experienţei, în condiţii 
deterministe, care să asigure o cunoaştere precisă a lor. De exemplu, fluctuatia 
forței de muncă, fenomen variabil în timp şi depinzând de factori conjuncturali, 
nu se poate măsura prin experiență, deoarece nu se pot crea condiţii de 
producție, de muncă etc. identic reproductibile în timp şi spaţiu. În astfel de 
situații, când fenomenele de masă se produc în condiţii de incertitudine, se 
poate folosi metoda statistică. 

Metoda statistică ne conduce la concluzii probabile, nu absolut sigure. Nu 
permite, după aprecierea lui A. Piatier”, să se afirme certitudinea, ci să se 
cerceteze limitele de incertitudine. Prin statistică se calculează aceste limite şi 
se elaborează probabilitatea de reaparitie a evenimentelor considerate. 
Folosirea statisticii, în calitate de metodă de cercetare, de către alte ştiinţe se 
fundamentează tocmai pe această posibilitate oferită de metoda sa particulară, 
de a descoperi legile de manifestare a fenomenelor de masă, care se desfăşoară 
în condiţii de incertitudine, pe baza frecvenţei gi regularitátii cu care aceste 
evenimente au apărut în trecut. 

Este edificator, în acest sens, exemplul considerat de Milton Smith” cu 
privire la probabilitatea de producere a două evenimente: apariţia soarelui în 
ziua de mâine şi apariția unei zile de întâi ianuarie, în viitor, mai călduroasă 
decât o zi de întâi aprilie. Observând frecvenţa de apariție a celor două 
fenomene, se poate constata că probabilitatea de apariţie în viitor a unui 
fenomen este în directă legătură cu gradul de constantá sau de inconstantá cu 
care s-a manifestat în trecut. 

În cazul dat, cu privire la apariţia soarelui se constată o permanență, deci 
putem fi siguri că şi mâine, atât timp cât există sistemul nostru solar, soarele va 
apărea; cu privire la apariţia unei zile de întâi ianuarie mai călduroasă decât o 
Zi de întâi aprilie nu mai putem fi tot atât de siguri. Producerea evenimentului 
în viitor este incertă. Statistica măsoară gradul de incertitudine în producerea 
unui eveniment în raport cu frecvenţa de apariţie în trecut a evenimentului şi 
calculează limitele acesteia pentru un anumit risc de a nu se păstra, în viitor, 


aceleaşi condiţii. 





3. A. Piatier, Statistique descriptive et initiation a l'analyse, Themis, Paris, 1962, p. 5. 
7 f 





4 Milton Smith, Ghid simp cat de statistică pentru psihologie si pedagogie, E.D.P., Bucureşti, 
/ f Í e y] Să , 


197], pp. 15-16 
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2.2.3 Diversificarea statisticii 


Conturatá initial ca ştiinţă a „treburilor statului”, statistica şi-a lărgit treptat 
sfera de observaţie, de la domeniul demografic la domeniul economic, social, 
fizic etc., dezvoltându-se ca ansamblu de statistici aplicate. 

Diversitatea domeniilor de existenţă a fenomenelor de masă a făcut necesară 
diversificarea statisticii în raport cu natura fenomenelor şi proceselor observate 
S-au constituit şi dezvoltat statistici specializate care observă şi studiază 
mişcările curente-continue ale vieţii concrete din domeniile respective. Astfel, 
sunt cunoscute: Statistica demografică, Statistica economică, Statistica 
juridică, Statistica medicală, Fizica statistică, Statistica matematică, Statistica 
taxonomică etc. 

Procesul de diversificare a statisticii continuă; de dată relativ recentă poate 
fi considerată Statistica informaţională, la care o contribuție deosebită şi-au 
adus Onicescu şi şcoala sa. 

Totodată, asistăm la apariția unor discipline dezvoltate din aplicarea 
statisticii, alături de alte metode, în investigarea unor domenii de studiu, cum ar 
fi cazul econometriei, rezultată din aplicarea statisticii şi matematicii în 


investigarea fenomenelor din economie. 


2.3 Particularităţi ale metodei statisticii 


Epistemologia stabileşte că orice disciplină ştiinţifică îşi are metoda sa generală 
şi particulară, şi la rândul ei fiecare metodă este legată în mod specitic de un 
anumit obiect al cercetării. 

Particularitatea procesului cunoaşterii statistice este dată de obiectul său de 
studiu şi, implicit, de metoda sa particulară care s-a dezvoltat în funcție de 
specificitatea obiectului de studiu. 

] 


UCIIV- 





Metoda particulară a statisticii se bazează pe un raționament ded 


] ] y; 57! m lalooine 
nsamblu de principti metodologice, 





procedee si tehnici de lucru folosite în investigarea fenomenelor observate. 


2.3.1 Particularităţi ale rationamentului statistic 


[n procesul cunoasterii statistice se utilizează cele două tipuri de raționament 


ale metodei ştiinţifice: deductiv şi inductiv. 
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Metoda deductivă procedează de la general la particular şi utilizează în 
special raționamentul matematic: se stabilesc ipotezele generale asupra unei 
probleme şi se deduc, prin raționament logic, anumite proprietăţi particulare. 

Metoda inductivă presupune procesul invers: se pleacă de la observaţii 
particulare asupra unor fenomene şi se ajunge la formularea unor reguli 


generale. 


Procesul cunoaşterii statistice începe cu emiterea ipotezelor care implică 
proprietăţi observabile, care se verifică prin analiza datelor înregistrate, apoi, 
folosindu-se un ciclu deductiv-inductiv succesiv, se generalizează mai departe 
ipotezele verificate, procesul cunoașterii statistice fiind un proces iterativ. 


O altă particularitate a procesului cunoaşterii statistice a fenomenelor ȘI 
proceselor constă în tratarea acestora ca un întreg structural. Statistica pleacă 
de la individual la întreg, fiecare element al colectivităţii este observat, fără a fi 
izolat de întreg, cunoaşterea întregului rezultând din structurarea elementelor 
componente după o ordine a variaţiei lor în timp, în spaţiu şi din punct de 
vedere calitativ. La nivelul întregului se retine numai ceea ce este generat de 
cauze comune, adică numai ceea ce este normal (purtat de majoritatea 
elementelor), esențial, permanent în variaţia curentă-continuă a fenomenelor 
observate; abaterile de la ceea ce este normal, datorate influenţei unor factori 
neesentiali asupra unui element oarecare, se compensează la nivelul întregului. 


2.3.2 Principii metodologice ale statisticii 


Principiile metodologice care particularizează metoda statisticii sunt: 
observarea faptică şi exprimarea numerică. 


Observarea  faptică. Prin natura lor, elementele unei colectivități 
economico-sociale nu pot fi observate, măsurate şi înregistrate în condiţii de 
laborator, prin experiență. Specifică acestora este observarea faptică, proces 
complex ce presupune obținerea datelor privind colectivitàtile economico- 
-sociale. Acest proces implică observarea, măsurarea şi înregistrarea fiecărui 
element component al colectivitátii sub aspectul caracteristicilor cuprinse 
intr-un program de observare. Principiul observării faptice cere observarea 
elementelor acolo unde ele există şi sub forma în care acestea există în timpul 


producerii lor. 
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Exprimarea numerică. Măsurarea fenomenelor si proceselor observate de 
statistică. datorită caracterului lor de masă, necesită exprimarea numerică. Un 
fenomen compus dintr-un număr mare de cazuri nu poate fi cunoscut numai 
sub formă atributivă. De exemplu, nu este suficient să spunem despre efectivul 
angajaților unei firme că este mare sau mic, trebuie să precizăm numeric câți 
angajați are firma. 

Expresia cantitativă, numerică a fenomenelor si proceselor permite 
prelucrarea, analiza si sinteza datelor obținute prin observarea faptică a 
fenomenelor de masă. Prelucrarea datelor, pentru astfel de fenomene, este 
posibilă numai sub formă numerică, fără să deducem de aici că statistica ar 
studia numai latura cantitativă. Înregistrând si prelucránd date numerice, 
statistica poate să constate, prin compararea rezultatelor obținute, modificările 
de esenţă calitativă ce se produc în mişcarea fenomenelor. Folosirea expresiei 
numerice face posibil calculul parametrilor unei distribuții (de exemplu, 
valoarea medie, varianta), al coeficienţilor de corelaţie etc., facilitează 
comparările şi elaborarea modelelor de evoluție a fenomenelor. 


2.4 Etape ale procesului cunoaşterii statistice 


Procesul cunoaşterii statistice parcurge următoarele etape: punerea problemei, 
observarea statistică, prelucrarea şi analiza datelor statistice, decizia statistică. 
În fiecare etapă se aplică procedee şi tehnici specifice, înlesnind observarea şi 
prelucrarea datelor statistice, precum şi testarea şi analiza informaţiilor 
statistice. 

Etapele procesului cunoaşterii statistice sunt prezentate în figura 2.1. 

Punerea problemei presupune definirea problemei în termeni precişi, 
indicându-se scopul şi aria de investigație (fenomenul sau procesul de 
observat), precum şi variabilele ce se cer studiate. 

În această etapă, se efectuează documentarea teoretică şi faptică asupra 
fenomenului de observat, se emit ipotezele de lucru, se aleg metodele de 
investigare, se elaborează planul de cercetare. 

Observarea statistică este etapa în care se înregistrează caracteristicile 
elementelor unei colectivităţi, se obține materialul faptic. De calitatea acestuia 
depinde esenţial autenticitatea informaţiei statistice. 

Culegerea datelor statistice se poate realiza fie prin procedee de înregistrare 
totală, adică înregistrarea exhaustivă a unei populații folosind, de exemplu, 
recensământul, fie prin procedee de înregistrare parțială, adică înregistrări la 
nivelul unui eşantion, folosind, de exemplu, anchete prin sondaj. 
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Figura 2.1 Etapele procesului cunoaşterii statistice 
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Prelucrarea statistică presupune un set de operaţii efectuate prin procedee şi 

tehnici de lucru specifice, şi anume: 

— sistematizarea materialului faptic brut obținut în etapa observării 
statistice. Această operație se poate realiza prin procedee de centralizare 
şi grupare statistice, în urma cărora se obțin indicatori primari şi serii de 
date statistice; 

- prezentarea datelor statistice, care se poate realiza prin procedee tabelare 
şi grafice; 

- calcularea indicatorilor derivati, cum ar fi indicatori ai tendinței centrale, 
ai dispersiei, ai formei de repartiție, folosind procedeul mediei, variantei 
etc., sau indicatori ai variaţiei în timp şi spațiu, folosind, de exemplu, 
procedeul indicilor statistici; 
măsurarea gradului de intensitate a legăturilor statistice, folosind 
procedeul covariatiei şi corelatiei; 
măsurarea influenţei factorilor asupra variației fenomenelor, folosind 
procedeul ANOVA; 

- aproximarea modelelor de regresie şi de trend, folosind procedeul 
ajustării statistice; 

- prognoza fenomenelor, folosind extrapolarea statistică; 
estimarea parametrilor şi verificarea ipotezelor statistice, folosind 


procedee inferentiale. 


Rezultatul prelucrării se concretizează în indicatori primari şi derivati, purtători 
ai informaţiei statistice. Etapa prelucrării datelor se îmbină cu analiza acestora. 





Procesul cunoaşterii statistice fiind iterativ, prelucrarea pe următoarea treaptă se 


efectuează numai după analiza rezultatelor obținute din prelucrarea precedentă. 


2.5 Noţiuni fundamentale ale statisticii 


Procesul cunoaşterii statistice operează cu o terminologie precisă. Noţiunile, 


conceptele care formează vocabularul de bază al statisticii sunt: colectivități 


statistice, unități statistice, variabile statistice, indicatori statistici. 


2.5.1 Colectivitáti statistice 


Statistica studiază fenomene de masă, ansambluri finite de elemente care au, 


) 
esențial, aceeaşi natură, aceleaşi condiţii şi aceleaşi legi de dezvoltare, adică 
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sunt statistic omogene. Astfel, de exemplu, pot fi considerate următoarele 
ansambluri: 
- populația unei țări la în momentul unui recensământ; 
- produsele fabricate de o întreprindere pe parcursul unui an; 
opiniile electorale înregistrate într-o anchetă. 


Astfel de ansambluri sunt cunoscute sub denumirea de populații, mulțimi, 
colectivități. 

Denumirea de populație pentru colectivități statistice derivă din faptul că 
primele aplicaţii ale statisticii se refereau la domeniul demografic, de unde s-a 
păstrat şi terminologia de bază. Noţiunea de populaţie statistică, respectiv 
colectivitate statistică, depăşeşte cadrul strict al demografiei şi se poate referi la 
cele mai diverse domenii, de la mulțimea indivizilor dintr-o țară la mulțimea 
stelelor dintr-o galaxie, la un moment dat, sau la cifra de afaceri obţinută de o 
firmă într-o perioadă de timp. 

O colectivitate statistică, respectiv o populaţie sau un univers Statistic, 
reprezintă o asociaţie de elemente unite între ele printr-o trăsătură esential 
comună, numită omogenitate. Elementele unei colectivităţi statistice pot fi fiinţe, 
lucruri, precum şi fapte, evenimente referitoare la acestea. 

Colectivitátile statistice definesc „populații” reale care sunt întotdeauna 
finite, in contrast cu „populațiile teoretice, infinite, studiate de matematică. 
Teoretic, o colectivitate statistică ar putea fi considerată infinită dacă s-ar 
admite mulțimea tuturor elementelor care pot să existe sau să se producă în 
aceleaşi condiţii, cum ar fi, de exemplu, mulţimea produselor care ar putea fi 
fabricate în aceleaşi condiţii. Practic, întotdeauna, o colectivitate statistică 
trebuie să fie bine delimitată, adică trebuie să i se precizeze frontierele de 
delimitare pentru a face posibilă observarea ei şi pentru a nu crea confuzii în 
interpretare. 


De exemplu, o anchetă cu privire la fertilitatea populaţiei unei țări sau a unei 


regiuni ar face să apară rezultate nereale dacă în anchetă nu s-ar preciza 


p 
oe 


populația observată, în cazul dat populaţia feminină, deoarece s-ar putea intele 


Í 


că rezultatele se referă la întreaga populaţie a zonei, adică s-ar include si bărbaţii 


ŞI copiil. 


Omogenitate statistică. Delimitarea colectivităţii statistice se face tinând 
seama de omogenitatea statistică a elementelor. Omogenitatea statistică a 
elementelor unei colectivități presupune proprietatea acestora de a fi, esențial, de 
aceeaşi natură calitativă, de a aparține aceluiaşi teritoriu si aceluiaşi timp (fie 
unui moment, fie unui interval de timp). Orice colectivitate statistică, într-o 







































56 Analiza statisticá cu SPSS sub Windows 





definire completă, trebuie deci să aibă precizată omogenitatea sub cele trei 
aspecte: calitativ, spațiu, timp. 

De exemplu, colectivitatea Populaţia României la 18 martie 2002 cuprinde 
persoanele înregistrate pe teritoriul României la momentul de referință (ora 0 
din ziua de 18 martie 2002). 

Omogenitatea statistică a unităților unei colectivități nu presupune identitatea 
acestora. Elementele colectivitátii sunt esenţial de acelaşi gen din punctul de 
vedere al caracteristicilor de definire a colectivităţi, dar se diferențiază între ele 
după alte caracteristici, pe care, de asemenea, le poartă toate unitățile 
colectivitátii, însă cu valori şi intensitáti diferite. Astfel, la nivelul unei 
colectivităţi se poate întâlni o diversitate de manifestare a elementelor, din 
punctul de vedere al gradului de omogenitate în raport cu anumite variabile de 
distribuţie considerate, având ca rezultat conturarea unor subcolectivitáti şi 
tipuri. 

De exemplu, populația unei țări la un moment dat cuprinde totalitatea 
indivizilor care trăiesc, în acel moment, pe teritoriul respectiv, dar aceştia se 
diferenţiază între ei după diverse caracteristici pe care le posedă, cum ar fi sexul, 
vârsta, ocupația etc. 


Subcolectivități. Subcolectivităţile sunt grupuri de elemente diferenţiate între 
ele, în cadrul colectivitátii statistice, din punctul de vedere al unei caracteristici 
calitative. Au un grad de omogenitate mai ridicat față de alte grupuri de elemente 
din aceeaşi colectivitate. 

De exemplu, în cadrul populaţiei umane, se diferențiază, după sex, două 
subcolectivitáti: populaţia masculină şi populația feminină. 


Tipuri. Tipurile sunt grupuri omogene de elemente, în cadrul unei colectivități 
sau subcolectivitáti, diferențiate între ele după gradul de intensitate sau de 
dezvoltare atins de o caracteristică dată. 

De exemplu, într-o colectivitate umană, se disting după vârstă următoarele 


$ 


tipuri: tânăr (0-19 ani), adult (20-59 ani), în vârstă (60 de ani şi peste) . 


Clasificarea colectivităţilor statistice. Pentru a delimita corect o colectivitate 
statistică este necesar să se cunoască natura şi numărul elementelor 


componente, precum şi formele de manifestare ale acestora. 





5. În literatura de specialitate sunt specificate şi alte limite de vârstă pentru cele trei tipuri de 
populaţie, şi anume: (0-14 ani), (15-64 ani), (65 ani şi peste). Vezi: V. Sora, I. Hristache, 
9 


C. Mihăescu, Demografie şi statistică socială, Ed. Economică, Bucureşti, 1996, pp. 91-92. 
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a) În funcţie de natura elementelor, colectivitátile pot fi formate din elemente 
cu un conținut material sau din elemente cu un conținut imaterial. Fiintele si 
lucrurile formează colectivități de stări şi se definesc la un moment anume, pe 
când evenimentele, faptele formează colectivități de mişcări, care se produc în 
mod continuu, definindu-se pe o perioadă de timp. 

De exemplu: 

- ansambluri de ființe (populația unei țări la un recensământ); 

— stocuri de obiecte concrete (parcul de autoturisme româneşti la 1 ianuarie 

2003); 

- ansambluri de evenimente (cererile de angajare depuse la firma ,,A" in 
decursul unui an calendaristic); 

- ansambluri de elemente neconcrete (opiniile electoratului înregistrate 
printr-o anchetă). 

Volumul unei colectivități. Volumul unei colectivități (talia sau efectivul) 
reprezintă ansamblul indivizilor definiti prin omogenitate statistică (în timp, în 
spațiu şi din punct de vedere calitativ). o 

Volumul unei colectivități se stabileşte în mod diferențiat, în raport cu natura 
elementelor componente, astfel: 

- în cazul colectivitátilor de mişcări (evenimente, fapte), volumul se află 
prin înregistrarea unităților statistice pe măsura apariției lor si prin 
însumarea acestora pentru un interval de timp ales; 

- în cazul unei colectivități de stări, volumul se află prin numărarea 
elementelor componente existente la un moment dat. 


Volumul colectivitátilor de stări, definite la diferite momente, poate fi aflat si 


cu ajutorul volumului colectivitátilor de mişcări corespunzătoare (vezi figura 2.2). 





O Colectivitate de mişcare 
în intervalul t, 
Colectivitate de stare Colectivitate de stare 
la momentul To la momentul T, 


Figura 2.2 Volumul colectivitdtilor de stări la momentele T, $i T, 
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De exemplu, volumul colectivitátii „populaţia unei zone" se poate afla pentru 
diferite momente de timp ţinând seama de evenimentele demografice (naşteri, 
decese, intrări şi ieşiri migratorii) produse în perioada dintre momente. 

Astfel, Populația la un moment dat = Populaţia la un moment anterior 
momentului de calcul + Sporul natural, ca rezultat al evenimentelor demografice 
(naşteri şi decese) produse în zonă, în perioada dintre momentul de calcul ŞI 
momentul ales, anterior acestuia + Sporul migrator (intrări şi ieşiri migratorii) 
în aceeaşi perioadă considerată. 


b) În funcţie de numărul elementelor componente, pot fi: colectivități totale, 
care cuprind totalitatea elementelor componente, şi colectivităţi parţiale (de 
selecție sau eşantioane), care cuprind un număr reprezentativ de unităţi extrase 
dintr-o colectivitate totală. Practica înregistrării unui eşantion reprezentativ în 
locul colectivităţi totale poate fi impusă fie din motive de economicitate. fie 
din pricina faptului că nu avem acces la întreaga populație, fie pentru că prin 
înregistrare elementele colectivitàtii s-ar distruge. 


2.5.2 Unităţi statistice 


Unităţile statistice reprezintă elementele componente ale unei colectivităţi 
statistice. De exemplu, unităţile statistice ale populației unei țări sunt indivizii. 
Unităţile statistice sunt elemente de observare, măsurare şi înregistrare, adică 
prin ele se observă, măsoară şi înregistrează o populaţie. Unele unități pot fi 
concrete, altele pot fi abstracte şi nu servesc decât la individualizarea 
observaţiilor. 

Unităţile statistice trebuie să fie clar definite. cerință impusă de necesitatea 
identificării lor corecte pe teren, altfel s-ar crea confuzii în interpretare şi, ca 
urmare, s-ar obține date neautentice. 

De exemplu, în cazul populaţiei unei localități, exprimată în număr de 
locuitori, unităţile statistice (indivizii) ar apărea la prima vedere perfect 


definite. Insă, ţinând cont de militarii în termen sau de numărul studenților ce 
provin din alte localităţi, noțiunea de „locuitor” va fi de natură diferită. Situaţia 
este şi mai dificilă în cazul unităților statistice definite în funcţie de modul lor 
de organizare, cum ar fi, de exemplu, familia. Este necesar aşadar să se 
definească precis unităţile statistice, respectiv să se cunoască categoriile de 
unități statistice. 
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Clasificarea unităţilor statistice. De regulă, se folosesc două criterii de 
clasificare a unităților statistice, şi anume: gradul de complexitate şi rolul pe 
care îl au în procesul înregistrării statistice. 

a) După gradul de complexitate sau componenţa lor, pot fi unități statistice 
simple şi unități statistice complexe. Cele simple sunt formate dintr-un singur 
element (individul, de exemplu) şi depind de starea lor naturală de existență, pe 
când unităţile complexe (familia, de exemplu) sunt formate din două sau mai 
multe unități simple şi depind de modul lor de organizare. 

b) După rolul lor în procesul înregistrării statistice, pot fi unități statistice 
active şi unități statistice pasive. Cele active transmit direct date statistice atât 
asupra lor, cât şi asupra unităţilor statistice pe care le reprezintă. De exemplu, 
capul de familie transmite, într-un recensământ, atât date cu privire la propria 
persoană, cât şi date cu privire la minorii pe care-i reprezintă. Unităţile pasive 
sunt unitățile despre care se transmit date. 


2.5.3 Variabile statistice 


Într-un studiu statistic, pe diferite trepte ale cercetării se pot întâlni trei tipuri de 
variabile: empirice, teoretice şi de selecție. Corespunzător celor trei tipuri de 
variabile, se pot construi trei tipuri de distribuții: distribuții empirice sau 
statistice, distribuții teoretice şi distribuții de selecţie. 

Variabile şi distribuții statistice. Variabilele statistice sunt cunoscute în 
literatura de specialitate şi sub denumirea de caracteristici statistice şi 
reprezintă şiruri de valori reale înregistrate la nivelul unităţilor statistice ale 
unei colectivităţi bine definite. Exprimă însuşiri, trăsături esenţiale purtate de 
unităţile statistice ale unei colectivităţi, adică dimensiunile prin care se observă, 
respectiv se măsoară, cuantifică şi înregistrează fiecare unitate din colectivitate. 

De exemplu, în cazul populaţiei umane, fiecare persoană este caracterizată 
prin sex, vârstă, stare civilă, naţionalitate, religie, ocupaţie etc. 

Valorile unei variabile statistice se numesc variante ale variabilei şi se obțin 
prin observarea unităților unei colectivităţi statistice, la un moment dat sau într-un 
interval de timp. 

Variantele unei variabile statistice pot diferi de la o unitate statistică la alta 
sau de la un grup de unităţi statistice la altul. Variația nivelului unei variabile 
statistice de la o unitate la alta se produce sub acţiunea unei multitudini de 
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factori, cu intensităţi şi sensuri de influenţă diferite, şi dă variabilelor statistice 
caracterul de variabilă aleatorie. 

Sirul variantelor unei variabile cu frecvențele de apariţie asociate formează o 
distribuţie statistică, numită şi distribuție empirică sau distribuţie observată ori 
distribuţie de frecvență. 

Distributiile statistice se diferențiază între ele în funcție de numărul 
variabilelor definitorii (distribuții statistice unidimensionale, bidimensionale si 
multidimensionale), de natura şi modul de măsurare a variabilelor. 


Variabile şi distribuții aleatorii. O variabilă aleatorie este un sir de valori 
abstracte. Este numită şi variabilă teoretică şi are un caracter stochastic, 
variantele variabilei depinzând de un sistem complex de evenimente întâmplă- 
toare. Probabilitátile de realizare a variantelor sunt cu atât mai mari cu cât 
şansa de influenţă a factorilor determinanti este mai mare. 

Şirul variantelor unei variabile aleatorii cu probabilitățile de apariţie cores- 
punzătoare formează o distribuție aleatorie, numită şi distribuţie teoretică sau 
distribuţie de probabilitate. 


Variabile şi distribuții de selecţie. Variabilele de selecţie se întâlnesc 
cazul cercetării prin sondaj. Pentru un volum de selecție n sunt numite 
variabile de selecţie variabilele aleatorii Xj, X2, ... Xm independente stochastic 
în ansamblu şi identic distribuite cu variabila X a populaţiei. Orice funcție de 
variabile de selecție este numită statistică, de exemplu, media, varianta une 
colectivități. O distribuţie de selecție este o distribuţie a unei statistici, de 
exemplu, distribuția mediei de selecţie. 


Clasificarea variabilelor statistice. In clasificarea variabilelor statistice, se 
consideră, de regulă, următoarele criterii: importanţa lor în procesul cunoaşterii 
colectivităţi, natura, modul de exprimare, forma de manifestare. 


a) După importanța lor, variabilele pot fi esenţiale şi neesentiale. Variabilele 
esențiale exprimă natura internă a fenomenului, de exemplu, sexul persoanelor, 
$i sunt purtate de toate unităţile colectivitátii. Variabilele esenţiale diferenţiază 
colectivitățile unele de altele. 

Variabilele neesenţiale au caracter întâmplător si pot fi purtate numai de 
unele unități din colectivitate, de exemplu, vechimea în calitate de membru al 
unui club. 

Unităţile statistice ale unei colectivități posedă un număr foarte mare de 
caracteristici, de exemplu: 
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- sexul, vârsta, starea civilă, ocupaţia etc., în cazul indivizilor unei 
populaţii umane; 

- tipul, culoarea, vechimea, puterea motorului etc., în cazul maşinilor 
dintr-un parc de autoturisme. 


Observaţie! Într-un studiu statistic, din multitudinea caracteristicilor pe care 
le posedă fiecare unitate se rețin numai acelea care prezintă interes pentru 
cercetarea întreprinsă şi sunt cuprinse în programul statistic de înregistrare. 


b) După natura lor, pot fi: variabile calitative, variabile de timp şi variabile 
de spaţiu. 

Variabilele de timp desemnează apartenenţa unităților la un moment sau la 
un interval de timp. 

Variabilele de spațiu, numite şi teritoriale, exprimă teritoriul în care există şi 
se manifestă unitățile colectivitátii. 

Variabilele calitative exprimă esența, natura unităților. 


c) După modul de exprimare, pot fi: variabile numerice şi variabile 
nenumerice. 

Variabilele numerice, numite şi cantitative, sunt fie numărabile, fie 
măsurabile, respectiv cu variație discontinuă — numite variabile discrete, sau cu 
variaţie continuă — numite variabile continue. Valorile unei variabile numerice 
se stabilesc prin numărare, măsurare, calcul şi pot fi reprezentate pe o scală 
interval sau pe o scală raport. 

Variabila discretă este caracterizată prin „întreruperea” valorilor pe care le 
poate lua această variabilă. Variabila discretă ia valori numărabile (de 
exemplu, numărul de piese produse zilnic de un muncitor, numărul de copii pe 
o familie, producția de autoturisme). Se exprimă, de regulă, în numere întregi, 
nonnegative. 

Variabila continuă este o variabilă numerică măsurabilă, ale cărei valori sunt 
divizibile la infinit şi pot fi grupate in k intervale. Exprimă dimensiuni 
măsurabile (de exemplu, puterea maşinilor, salariul angajaţilor unei firme, 
lungimea unei piese, greutatea unui produs). O variabilă continuă presupune 
alegerea unităţilor de măsură şi a preciziei dorite pentru rezultate. Fiecărui 
element dintr-o colectivitate îi corespunde un nivel al variabilei exprimat 
numeric, în unități de măsură corespunzătoare (de exemplu, puterea maşinilor 
în C.P., salariul în lei etc.). 

În cazul unei variabile continue, valorile observate pentru fiecare unitate din 
colectivitatea studiată (pentru fiecare salariat, de exemplu) fac parte din 
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intervale de valori. Intervalele (grupele, clasele de valori) pot fi de márimi 


egale sau inegale, inchise sau deschise. 


Observaţie! În realitate, $i observaţiile pentru o variabilă continuă sunt 
discontinue, rotunjite la cáteva cifre (discontinue in raport cu unitatea de 
măsură folosită: lei, metri, kilograme etc.). De asemenea, se poate observa că 
atunci când numărul valorilor unei variabile discrete este mare (de exemplu, 
numărul de clienti care intră într-un magazin pe parcursul unei zile), aceste 
valori pot fi prezentate, pe intervale, ca în cazul unei variabile continue. 





e atributive, 


Variabilele nenumerice, cunoscute şi sub denumirea de variabi 
e căror valori (modalităţi) de 


categoriale, nominale, sunt caracteristici a 
manifestare sunt exprimate atributiv, în cuvinte (de exemplu, sexul, 
naționalitatea, culoarea). Când numărul variantelor unei caracteristici atributive 
este mare, acestea fac obiectul nomenclatoarelor statistice, de exemplu, 
nomenclatorul meseriilor. 

Modalităţile unei caracteristici atributive pot fi reprezentate pe o scară 
nominală, de exemplu, meseriile, sau pe o scală ordinală, de exemplu. 
calificarea protesională (cu modalitățile calificat, semicalificat, necalificat). 
Corespunzător, vanabilele atributive pot fi: 

variabile nominale; 
- variabile nominal-ordinale. 


Observaţie! Distinctia între o variabilă exprimată cantitativ si o variabilă 
exprimată atributiv este câteodată convenţională. Adică, unei caracteristici 
numerice i se pot asocia modalităţi, atribute. De exemplu, în cazul tipurilor 
după vârstă, se pot asocia atributele astfel: tânăr — până la 20 de ani, adult 
20-60 de ani şi în vârstă — peste 60 de ani. Dar operaţia inversă, adică atribuirea 
unor valori numerice unei caracteristici exprimate atributiv, nu este posibilă. 


d) După modul de manifestare la nivelul unităţilor simple ale unei 
colectivități, se disting variabile nealternative şi variabile alternative. 

Variabilele nealternative pot lua valori diferite pentru fiecare unitate 
statistică sau grupă de unităţi statistice din colectivitatea observată. 

Variabilele alternative au caracter dichotomic, adică nu pot lua decât două 
valori. Mai sunt denumite şi caracteristici binomiale sau binare. De exemplu, 
un produs poate fi rebut sau nonrebut, bun sau rău, un candidat poate fi admis 
sau respins. 
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Valorile individuale pentru o caracteristică alternativă pot fi: 
- DA, exprimând prezența caracteristicii şi are asociat codul numeric 1; 
- NU, exprimând absenţa caracteristicii şi are asociat codul numeric 0. 


Codificare. Codificarea variabilelor statistice presupune atribuirea de coduri 
numerice fiecărei variante sau fiecărui interval, respectiv atribut (modalitate). 
Codurile sunt numere asociate pentru fiecare clasă, respectiv pentru fiecare 
modalitate (atribut). Reprezintă identificatori, acordarea lor este pur 
convențională, deci codurile nu se supun operaţiilor de prelucrare statistică. 


2.5.4 Cuantificarea fenomenelor. Tipuri de scală 


Modul de măsurare a fenomenelor şi proceselor economico-sociale, naturale etc. 
este diferențiat, deoarece acestea se deosebesc între ele prin mărime sau prin 
formă, prin frecvență sau intensitate de manifestare, prin coeziune sau prin 
interdependente. Ca urmare, unele fenomene pot fi direct măsurabile canti- 
tativ — cazul elementelor fizice —, altele pot fi măsurabile cu aproximaţie” 
cazul elementelor sociale, care, prin natura lor, sunt mai dificil de măsurat 
comparativ cu elementele fizice. De exemplu, distanța socială este mai dificil 
de măsurat decât distanța geografică sau opinia unei persoane comparativ cu 
înălțimea sa. 

În vederea caracterizării colectivitátilor statistice este necesară obținerea 
unor forme comparabile ale fenomenelor. Aceasta devine posibilă prin 
cuantificare. 


Cuantificare 

Cuantificarea fenomenelor economico-sociale implică un proces complex de 
izolare, măsurare in forme comparabile si înregistrare a elementelor unei 
colectivități prin caracteristicile cuprinse în programul înregistrării. Operatia de 
cuantificare este o operaţie specific statistică şi presupune un set de reguli de 
atribuire a unei valori unităţilor statistice ale unei colectivităţi observate după 
o caracteristică. Valorile atribuite pot fi sub formă de cifre sau de simboluri. 
Diferentierea valorilor se face prin intermediul unui instrument de măsură 
denumit scală. 





6. O analiză aprofundată a fenomenelor din punctul de vedere al posibilităţii de măsurare 
găsim în M. Dauverger, „Tehnicile matematice si grafice în ştiinţele sociale", în Teorie si 
metodă în ştiinţele sociale, vol. I1, Editura Politică, Bucureşti, 1956, p. 125. 












































64 Analiza statistică cu SPSS sub Windows 





Tipuri de scalá 

Scala poate fi consideratá un continuum de cifre sau de simboluri plasate 
ierarhic, de la inferior la superior. În literatura de specialitate şi în practica 
statistică sunt folosite diferite scale, şi anume: scala nominală, scala ordinală, 
scala interval şi scala raport. 


Scala nominală are o singură proprietate — identitatea. Aceasta exprimă 
apartenenţa elementelor la o categorie. Ca urmare, măsurarea cu ajutorul scalei 
nominale presupune existența unei colectivități împărțite în categorii 
(modalităţi) independente şi constă în acordarea de numere sau simboluri 
fiecărei categorii in care se diferențiază unităţile colectivitátii observate. 
Scalarea cu ajutorul scalei nominale cere ca: 

— tuturor indivizilor unei categorii să li se atribuie aceeaşi valoare; 

— doi indivizi care aparțin la două categorii distincte să aibă valori diferite. 


De exemplu, pentru variabila dichotomică „sex” se pot da două atribute: 
masculin şi feminin sau, cu ajutorul codurilor, două numere: 1 şi 2. Ordinea 
numerelor sau simbolurilor atribuite drept coduri categoriilor este oarecare, 
între ele există un raport de echivalență. 


Scala ordinală sau scala cu ranguri are, pe lângă proprietatea de identitate 
specifică scalei nominale, şi proprietatea de ordine, care permite să se claseze 
elementele observate conform unei ordini, preferințe. Măsurarea cu ajutorul 
scalei ordinale este folosită în cazul variabilelor atributive, când între 
categoriile de unităţi ale colectivitátii există un raport de preferință, desemnat 
prin „>”, care permite măsurarea cu ranguri. 

Cel mai frecvent caz de măsurare ordinală este nota la examene: 1, 2, 3, ..., 10. 
Indiferent de sistemul de notare (de la 1 la 10 sau de la 1 la 100), 10 sau 100 
are aceeaşi interpretare, reprezentând categoria „cel mai bun”. Diferenţele între 
două valori ale unei variabile ordinale nu au sens. 


Scala interval adaugă la cele două proprietăţi subliniate anterior, identitate şi 
ordine, o a treia proprietate — intervalul între numere are un sens, fapt ce permite 
să se compare diferențele dintre numere. 

Măsurarea cu ajutorul scalei interval este utilizată în cazul variabilelor 
cantitative şi presupune atribuirea de valori numerice unităţilor colectivității în 
funcţie de sensul diferenței de mărime a caracteristicii observate. 

Diferenţa dintre două valori ale unei variabile este semnificativă, pentru 
scala interval fiind caracteristic raportul dintre două puncte de scală. Acesta 
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este independent de punctul de origine ales şi de unităţile de măsură folosite, 
fapt ce face posibilă trecerea de la un sistem de măsurare la altul. 

Exemplul clasic îl reprezintă măsurarea temperaturii în sistemul Celsius şi 
în sistemul Fahrenheit — caz în care, schimbând zeroul convenţional şi valorile 
temperaturii, raportul dintre două modificări de temperatură rămâne acelaşi. 


Scala raport este folosită tot pentru variabile cantitative şi are aceleaşi 
proprietăţi ca scala interval şi, în plus, posedă un zero absolut. Măsurarea cu 
ajutorul scalei raport presupune respectarea raportului specific unei scale 
interval, plus considerarea unei origini reale, fixe, ca punct de referință. 

Diferenţele şi raporturile dintre două valori ale unei variabile au un sens 
precis. De asemenea, raportul dintre oricare două valori ale scalei este 
independent de unitatea de măsură folosită. Scala raport este utilizată pentru 
măsurarea valorilor pentru numeroase variabile, cum ar fi, de exemplu, 
dimensiunile fizice (înălțime, greutate, distanţă etc.), prețul, viteza etc. 

În folosirea practică a scalei raport apar dificultăți în cazul măsurării 
valorilor unei variabile continue, ca urmare a limitelor de precizie ale 
instrumentelor de măsură utilizate. 


Scala de intensitate este folosită pentru măsurarea şi compararea opiniilor, a 
comportamentelor. S-au elaborat scale specifice de intensitate. O contribuţie 
deosebită în cuantificarea opiniilor a adus-o Ilse Krasemann”, prin scala de 
opinie, pe care o prezentăm în figura 2.3. 


-10 0 *10 
Maximum A btinere Maximum 
de intensitate de intensitate 
Contra" „pentru” 


Figura 2.3 Scală de opinie 


Scala de opinie este o scală „cvasimetrică”. Se caracterizează prin punctul 0 
care exprimă inexistența opiniei şi un număr de puncte, în sens negativ şi 
pozitiv, față de zero, cu ajutorul cărora se exprimă şi se măsoară gradele de 
intensitate a opiniei subiecților anchetați. 





7. Ilse Krasemann, „Unele observaţii cu privire la cuantificarea fenomenelor sociale”, ibidem, 
vol. X, p. 103. 









































66 Analiza statistică cu SPSS sub Windows 





În cercetările de marketing", scala de opinie este cunoscută, de regulă, sub 
denumirea de scală de rating. Pe o astfel de scală sunt fixate de la 4 până la 10 
gradatii pentru a facilita ierarhizarea răspunsurilor. 

De exemplu, pentru un item (enumerare) în 5 trepte, gradatiile pot fi 
formulate astfel: 

coincide perfect; 
coincide partial; 

- coincide într-o oarecare măsură; 

- coincide mai puțin; 

- nu coincide deloc. 

În vederea prelucrării, răspunsurile se cuantificá, adică fiecărei gradatii i se 
asociază o cifră, de aici rezultând şi proprietatea de scală , cvasimetricà " 
pentru scala de opinie. 


2.6 Notatii 


Procesul cunoasterii statistice, descriptiv si inferential, implicá planuri de 
abordare diferite, si anume: distribuții empirice, distribuții teoretice şi 
distribuții de selecție. Pentru a evita confuziile este necesară folosirea unor 
notații distincte pentru fiecare plan. În lucrarea de față vom tine seama de acest 
mai des întâlnite în literatura 





principiu, respectând, pe cât posibil, notatiile ce 
de specialitate, şi anume: 
litere din alfabetul latin pentru valorile observate, fie prin anchete 
statistice, fie prin experiment; 
- litere greceşti pentru valorile teoretice; 
- litere majuscule pentru variabile şi pentru funcții cumulative (funcţii de 
repartiție); 
- litere minuscule pentru valorile particulare ale unei variabile şi pentru 
functii noncumulative (functii de densitate). 


Astfel, in concordanţă cu precizárile anterioare, notăm prin literă majusculă, 
de exemplu, X, o variabilă statistică, reprezentând o funcție cu valori reale 
definită pe mulțimea de bază 2: 

X: (QR 

O variantă a variabilei purtată de un grup n; de unităţi se notează cu 
minusculă, de exemplu, x;. 


8. Manfred Bruhn, Marketing, Editura Economică, Bucureşti, 1999, p. 114. 
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Observaţie! Identificatorul ,,;" este folosit pentru a desemna poziţia unui 
individ într-un şir, într-o listă, respectiv pentru a desemna valoarea variabilei 
inregistrate la nivelul unităţii sau individului „i ” din şir. 
In cazul unei variabile discrete, valorile unei variabile sunt: 


e N IAE x > unde (x, «x; «..« x, ). 


In cazul unei variabile continue, admitem intervalele de valori: 


(Xp, XJ (X X2), (Xp pa Xp a (pa Xa) e 


Oricare interval (x; ;,,x,) poate fi notat: j; 2 (x, j,x,), unde (x, j,x,) 
este un segment de dreaptă real. 

Domeniul de variație sau amplitudinea de variaţie a variabilei este 
reprezentat de mulțimea valorilor posibile ale unei variabile, X : (xj, x2,..., x 


). 
n 


Se notează cu A, şi se calculează ca diferență între nivelul maxim (x, şi 
nivelul minim (Xi), înregistrate pentru unităţile colectivitátii observate. după 
relația: 


11. X 


Lr NEL MM 

Cánd variabila X ia valoarea particulará x,, spunem cá are loc evenimentul 
X =x; cu probabilitatea P(X 2 x, ) 2 f(x, ). Adică, unei variabile aleatorii X 
i se asociază o funcție bine definită, f(x), care indică probabilitatea de apariţie a 
unei valori posibile, x;. 

Observaţie! Statistic, probabilitatea de apariţie a unei valori x, poate fi 
aproximată prin frecvenţa relativă, /;, corespunzătoare acestei valori, respectiv 
prin ponderea efectivelor care poartă nivelul x, în totalul unităţilor 

ETE WR NR NETS EM 
colectivitátii distribuite după variabila X, şi anume: f, = —. 
n 
Distribuţia de frecvenţă a variabilei statistice X este reprezentată de 





mulțimea perechilor ( x;, f, ), i = /,m , respectiv (j;,f;) i =1,k. 


Sintetic, o distributie statisticá se noteazá astfel: 








f aC | / i 
X i | sau X: I cu i=1,m, l€m«n,respectiv 
N / l, J Y. Jy J 
EN ( ) = 
X | sau X | CU = lk: 
(n, ) Vf) 
x 53 Ji 
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unde: 


x, — valori individuale ale caracteristicii X; 
ji ^ (x; j,x;) — intervale de valori ale unei variabile continue; 
n, — efectivul, frecvența absolută; 


f,- frecvența relativă corespunzătoare valorii X =x;, 


X=j,. 


respectiv 








CAPITOLUL 3 


PREGÁTIREA, SISTEMATIZAREA SI 
PREZENTAREA DATELOR ÎN SPSS 











e Definirea şi introducerea datelor 

e Divizarea unui fişier 

e Sistematizarea şi prezentarea datelor în SPSS 
e Transformarea datelor 


e Modificarea unui tabel in SPSS 
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3.1 Definirea si introducerea datelor 


Orice analiză statistică a datelor in SPSS începe cu pregătirea setului de date. 
Acest proces presupune prezentarea datelor într-un format care să permită 
organizarea şi efectuarea analizei lor. Atingerea acestui obiectiv implică 
definirea şi introducerea datelor, operaţii care se efectuează folosind foile Data 
View şi Variable View din fereastra Data Editor. 

Ilustrarea si exemplele din această carte au la bază fişierele tapestry.sav! si 
dez_reg.sav. Crearea fişierului de date, pentru primul caz, are la bază un 
chestionar (vezi Anexa 1) administrat unui eşantion de 400 de persoane, iar 
pentru cel de al doilea caz, Anuarul statistic al României, 2002. 


3.1.1 Definirea atributelor unei variabile 


Definirea atributelor unei variabile este prima operaţie din procesul de 
pregătire a setului de date. Presupune precizarea atributelor unei variabile: 
numele variabilei, tipul, lungimea (numărul de caractere), numărul de 
zecimale (pentru cele numerice sau asociate celor numerice), eticheta, valorile 
etichetei, valorile lipsă, alinierea şi modalitățile de măsurare a variabilei 


(scală, ordinal sau nominal). Variabilele se definesc în coloanele foii Variable 
View din fereastra Data Editor (vezi figura 3.1). 










































8 0 venitul lun Right dinal 
8 0 judetul in care (1, Lef lom 
| Data View ) Variable View / 4 Y 
SPSS Processor is ready | 
Figura 3.1 Fereastra Data Editor — Foaia Variable View 
l. tapestry.sav — baza de date cu privire la eşantionul de pelerini la Sfânta Cuvioasă 


Parascheva, laşi, octombrie 2002 (Research Project TAPESTRY: Travel Awareness 
Publicity and Education Supporting a Sustainable Transport Strategy in Europe). 
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1. Numele variabilei 
Numele variabilei se editează în coloana Name, ţinând cont de câteva 
restricții: 
să fie unic; 
- să aibă cel mult 8 caractere; 
— primul caracter să fie o literă; 
— poate să conțină litere, cifre (inclusiv o perioadă) şi simbolurile (2), %, 
S 
- să nu conțină spatii sau simboluri speciale folosite în SPSS; 
ultimul caracter să nu fie ,, " (underscore — liniuta de subliniere); 
- să nu se termine cu o perioadă. 


2. Tipul variabilei 

Definirea acestui atribut se realizează în coloana Type din foaia Variable 
View din fereastra Data Editor. Variabilele pot fi de mai multe tipuri: numerice 
(Numeric, Comma, Dot, Scientific notation), alfanumerice (String) etc. (vezi 
figura 3.2). Variabilele introduse sub formă alfanumerică (de exemplu, sexul 
persoanelor, cu atributele: M — pentru masculin şi F — pentru feminin), cel mai 
adesea, trebuie codificate (se asociază un număr pentru fiecare atribut), în 
scopul efectuării analizelor ulterioare. Prin urmare, se recomandă editarea lor 
numerică de la început. 






Type | Width 
















Numele A 
^ 
-= y 
nm 4 
Lomma 
Na 
Lomma Width 5 Vol 
Dot — NES Scientific notation ) 
: Decimal Places: |2 ddmmy 
Scientific notation Help adi 
— Hd 
Dale Wyyddd 
« af) 
C Dolar qM 





Custom curency 


gly 
Custom cunency x 








- Sting 





String 





Figura 3.2 Fereastra Variable Type 


Pentru datele de tip Numeric, Comma, Dot şi Scientific notation, se pot 
introduce numere întregi şi zecimale, dar vor fi afişate sub formă zecimală 
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numai dacă precizám numărul de zecimale în caseta Decimal Places sau direct 
in coloana Decimals. 

Pentru variabilele de tip Date, Dollar şi Custom currency, sunt afişate liste 
cu formate specifice din care il alegem pe cel dorit (vezi figura 3.2). 


3. Eticheta variabilei 

Numele variabilelor este limitat la 8 caractere, dar se poate preciza un nume 
explicit, numit etichetá, care sá fie afigat in fereastra de rezultate Output (de 
exemplu, sexul persoanei). Pentru aceasta, in coloana Label se poate edita un 
nume folosind până la 256 de caractere. 


. 4. Valorile etichetei 

Când variabila este categorialá (nominală), se precizează valorile luate de 
variabilă şi etichetele corespunzătoare acestora, în fereastra Value Label (vezi 
figura 3.3). De exemplu, pentru sexul persoanei se scrie 1 in Value şi Masculin 
în Value Label. Se acționează butonul de comandă ADD şi, în mod analog, se 
adaugă noi valori (de exemplu, 2 în Value şi Feminin în Value Label). 

Pentru modificarea unor valori de etichetă, se foloseşte butonul de comandă 
Change, iar pentru ştergerea lor, butonul de comandă Remove. Butonul de 
comandă OK este acţionat după ce au fost adăugate, şterse sau modificate toate 
valorile dorite ale variabilei. 





Value Labels 
Value: [2 


f FM TAUTCMN 
Value Label: |Feminin ES 


Cancel 





NE SONUS pec gu Help 
Add [1 = "Masculin" — 





Figura 3.3 Fereastra Value Label 


5. Precizarea valorilor lipsá 

În SPSS se pot preciza două tipuri de valori lipsă: system-missing values 
(pentru variabile sistem) si user-missing values (pentru variabile definite de 
utilizator). Valorile lipsă trebuie precizate pentru a asigura acuratețe 
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rezultatelor. Ele apar când un set de date este incomplet din diferite cauze: fie 
chestionarul administrat este prea lung si chestionatii nu mai au răbdare să 
completeze răspunsul la toate întrebările, fie se fac erori de omitere în procesul 
de introducere a datelor, fie completările sunt ilizibile etc. În astfel de situaţii, 
pentru un subiect particular, când răspunsul nu întruneşte criteriile pentru a fi 
considerat valid în procesul de editare a datelor în SPSS, în celula 
corespunzătoare se scrie valoarea 9 sau 99, respectiv 999, în funcție de numărul 
de cifre din răspunsul normal. De asemenea, în practica anchetelor prin sondaj, 
pentru astfel de răspunsuri invalide se folosesc codurile: 

97 — pentru „nonrăspuns””; 

98 — pentru ,,neaplicabil"; 

99 — pentru „răspuns ilizibil". 

Pentru a recunoaşte valorile lipsă, acestea trebuie definite. Când nu lipsesc 
valori, se alege butonul de opțiuni No missing values. 

În procesul de analiză a datelor, se pot preciza ca valori lipsă şi valorile 
aberante. Acestea se introduc, de regulă, în zonele de editare subordonate 
butonului de opțiuni Discrete missing value (vezi figura 3.4). 














= 

| Values | Missing ] Columns ROCHE 
an (1, masculin).[None ... [--]8 Missing Valves 
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No mizing values 
* Dasciele missing values 
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(* No missing values 





Hep 
Cancel A OR 
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2 


screte missing values 
[ — —— € 





! Help 





C Range plus one optional discrete missing value 








Castigul salari None 2751848 N e 9 











bar larna ir 


Figura 3.4 Definirea valorilor lipsă 








6. Definirea formatului coloanei 

Formatul coloanei presupune precizarea numărului de caractere (automat, în 
Columns este definit 8, dar se poate schimba înlocuind 8 cu valoarea dorită) şi 
alinierea valorilor în coloană (Left — stânga, Right — dreapta sau Center - 
centru). De asemenea, se poate alege şi sistemul de măsurare (Scale, Ordinal 
sau Nominal). Aceste opţiuni se aleg din listele afişate în coloanele Align şi 
Measure, din foaia Variable View (vezi figura 3.5). 
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Columns 











Figura 3.5 Definirea formatului coloanei 


3.1.2 Introducerea datelor 


Datele se introduc in celulele foii Data View din fereastra Data Editor, 
deschisă prin comanda New Data, din meniul File. Fiecare rând reprezintă un 
subiect, fiecare coloană reprezintă o variabilă. Introducerea este uşoară si se 
realizează prin scrierea (editarea) unui număr sau a unui text în celula curentă 
(cea în care este cursorul si are chenarul îngroşat — vezi figura 3.6). Pentru a 
introduce date, succesiv, în mai multe celule, se mută cursorul folosind 
mouse-ul (prin clic în celula dorită). Alte modalităţi de mutare a cursorului 
oferă tastele de direcţie (de la tastatură, tastele cu săgeți), tasta Tab (care mută 
cursorul pe rând, în celula de pe coloana următoare) sau tasta Enter (care mută 
cursorul pe coloană, în celula de pe rândul următor). 




















2l 2] 40 Q | 22 6,00 
|» ÎNData view Á variable Vie | 











Figura 3.6 Introducerea datelor 


De asemenea, pentru introducerea datelor se pot folosi comenzile de editare 
Cut, Copy si Paste din meniul Edit sau meniul rapid (activat cu butonul din 
dreapta al mouse-ului). 
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3.1.3 Citirea atributelor variabilelor 


Atributele unei variabile se pot citi alegând din meniul Utilities comanda 

Variables care deschide fereastra Variables (vezi figura 3.7). Această fereastră 

este structurată în două zone principale. În stânga, este afişată lista tuturor 

variabilelor, iar în dreapta apar informaţii despre variabila selectată (cea pe 
t 


care este plasatá bara de selectie), prin clic de mouse. 













tul in care locuieste persoana 


Nominal 
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Figura 3.7 Citirea atributelor unei variabile 


Fereastra Variables are şi o serie de butoane de comandă. Cel mai folosit 
este Go To care asigurá localizarea, pentru un anume subiect, a coloanei 
corespunzătoare unei variabile. Operatia se realizează fie pentru a avea acces 
rapid la valorile variabilei, fie pentru definirea sau modificarea atributelor 


respectivei variabile (vezi figura 3.8). 





"4 Variables i i " zu Sigur x] 


in care locuieste persoana 
es: none 


Level: Nomina 
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Figura 3.8 Localizarea unei variabile 
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3.2 Divizarea unui fisier 


3.2.1 Divizarea unui fişier pe categorii de subiecți, folosind 
comanda SPLIT FILE 


Divizarea unui fişier de date pe categorii de subiecti se face" pe baza unei 
variabile categoriale prin care se definesc categoriile (grupurile). De exemplu, 
pentru a divide fişierul de date rapestry.sav în două, se poate folosi variabila 
Sexul persoanei. 

Această operaţie este necesară atunci când dorim să se efectueze analiza 
statistică pe categorii de subiecţi, de exemplu, realizarea de teste pe cele două 
grupe: bărbați, femei. Rezultatele prelucrării datelor vor fi raportate pe 
categorii. 

Realizarea acestei operații se bazează pe comanda Split File din meniul 
Data, care deschide fereastra de dialog Split File (vezi figura 3.9). 


^ 


















$ mod placut de a cala ^ Analyze all cases, do not create groups OK 
$ mod placut de a cala 

4 A * Compare groups 
$) protejeaza mediul [e Paste 
3 protejeaza mediul m Organize output by groups 
? protejeaza mediul ai Groups Based on: Reset 
varsta persoanei [va r tw 
$ statutul socio-profes 
e venitul lunar al persi [«] 
? judetul in care locuie 
regiunea de provenit 
$ venitul lunar al perst 
)vtst gr * Sort the file by grouping variables 


SEXUI persoanei [SEXU 





File is already sorted 





Current Status: Analysis by groups is off. 








Figura 3.9 Comanda Split File 


Fereastra este prevázutá cu mai multe butoane de optiuni (care se exclud 
reciproc). Compare groups are ca efect prezentarea rezultatelor separat, pentru 
bărbați şi femei, fiecare într-un subraport. Butonul Organize output by groups 
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creează un raport cu toate informaţiile pentru bărbați şi un alt raport cu toate 
informaţiile pentru femei. 
Butonul de comandă OK realizează impártirea/splitarea propriu-zisă pe 


grupe (în dreapta barei de informații apare mesajul Split File On). Ca urmare, 
rezultatele unei analize sunt afişate în Output Viewer ca raportate pe categorii 


de unităţi. 


Pentru a reveni la forma inițială a fişierului de date se activează butonul de 


opţiuni Analyze all cases, do not create groups care asigură analizarea tuturor 


cazurilor, fără crearea de grupe. 


3.2.2 Selectarea unor subiecţi, folosind comanda SELECT 


CASES 


) 


Selectarea unor subiecti (de exemplu, numai persoanele până la 25 de ani) pe 


care dorim să îi analizăm în funcţie de anumite caracteristici ale lor se poate 


realiza prin comanda Select Cases, din meniul Data. Această comandă 
deschide fereastra de dialog Select Cases. Se alege opţiunea /f condition is 


satisfied si se actioneazá butonul de comandá /f (vezi figura 3.10). Se deschide 


fereastra Select Cases: If, în care se introduce condiția de selectie/filtrare: 


varsta < 25. 





* 
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Figura 3.10 Ferestrele Select Cases și Select Cases: If 
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Butonul de comandă Continue determină revenirea la fereastra Select Cases 
în care se activează butonul de comandă OK pentru a se obține fişierul filtrat 
(vezi figura 3.11). 





Ea IE DI Ea a a 












Select 
ncheta [etapa 
e numar chestionar |nr All cases Po = f: 
datio , * |I condition is satisfied EF " E | 
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ec S It. varsta <25 
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$) calatorit c clela b j a 
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Basec me or case range ^ z 

$ calatorit cu transport Based on time or case rang 5 


$ mijlocul de transport 
+ a folosit numai trans | 
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$ poluez cand fol Unselected Cases Are 70 D 
W intensitalea t lu * Filtered Deleted = = x | 
. JU 
Current Status: Filter cases by values of filter 9 = zü OoOo 











OK | Paste Reset Cancel | Help 








Figura 3.11 Selectarea persoanelor în vârstă de până la 25 de ani 


In foaia Data View din fereastra Data Editor, cazurile anulate sunt tăiate 
printr-un slash (/). Aceste cazuri nu vor fi folosite în nici o raportare. 


3.3 Sistematizarea şi prezentarea datelor în SPSS 


Sistematizarea datelor este prima etapă a prelucrării datelor şi are ca obiectiv 
sumarizarea şi ordonarea datelor. Se poate realiza prin centralizare şi grupare 
statistică. 

Prin centralizare se obțin indicatori totalizatori la nivelul unei populaţii, de 
exemplu: numărul locuitorilor unei ţări la un moment de recensământ. Prin 
grupare, care poate fi tratată ca o centralizare pe grupe, se obţin șiruri de dati 
ordonate după una sau mai multe variabile de grupare. Fiecare nivel al 
variabilei apare o singură dată, ordonat în sens crescător sau descrescător, la 
care se asociază frecvența de apariţie corespunzătoare. 


Şirurile de valori/categorii ordonate ale variabilei/variabile 





Or observate si 
frecventele asociate acestora formeazà distributii statistice. Distributiile 


LG 


rezultate în urma sistematizării pot fi prezentate în tabele statistice 
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Sistematizarea datelor după o variabilă presupune ordonarea valorilor 
variabilei observate. X, în sens crescător sau descrescător şi găsirea frecvenţei 
de apariție corespunzătoare fiecărei valori sau grupe (clase) de valori. În urma 
sistematizării datelor pe baza unei variabile se obțin distribuții de frecvență 





univariate, X :(x,n,), cu i = 1,m, care pot fi prezentate în tabele de 


frecvenţă — în cazul variabilelor numerice, respectiv în tabele de contingentá — 
in cazul variabilelor nominale. 
Sistematizarea datelor simultan după două sau mai multe variabile are ca 


rezultat obținerea unei distribuții de frecvenţă bivariate, X,Y :(x,, y ,, n; /, cu 





i=1,m si j=1,p, sau multivariate. Distributiile bivariate, rezultate in urma 
sistematizárii, pot fi prezentate in Crosstabs, care pot fi tip tabele de corelație 
- cazul variabilelor numerice, respectiv tabele de asociere — cazul variabilelor 
nominale. 


3.3.1 Demersul sistematizării datelor în SPSS 


Sistematizarea datelor in SPSS poate fi realizată prin opţiunea Frequencies 
subordonată comenzii Descriptive Statistics din meniul Analyze (vezi figura 
3.12). Activarea opțiunii Frequencies determină deschiderea ferestrei 


Frequencies (vezi figura 3.13). 

















Figura 3.12 Selectarea opțiunii Analyze — Descriptive Statistics — Frequencies 


Lista sursă a variabilelor este afişată în caseta din stânga a ferestrei 





Frequencies. Din această listă, se selectează variabila di rită, prin clic de 
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mouse, când bara de selecție este poziționată pe numele acesteia. Variabila 


selectată este mutată, prin clic pe butonul s săgeată, din lista sursă în caseta 
Variabile(s). 


Observaţie! Acelaşi efect se obţine si prin dublu clic de mouse de pe numele 
variabilei dorite. 


Apoi, prin butonul de comandă OK se obține Tabelul de frecvenţă, afişat în 
fereastra de rezultate Output Viewer (vezi figura 3.14). 














[D protejeaza mediul at ^ Variable(s): OK 
| sexul persoanei [se» | Că varstain | 
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iv Display frequency tables 
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Figura 3.13 Fereastra Frequencies 
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Figura 3.14 Output-ul Frequencies 
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3.3.2 Tabelul de frecvenţă 


Într-un tabel de frecvență sunt prezentate, pentru fiecare variabilă selectată, 
următoarele elemente: 

- valorile sau clasele de valori ale variabilei, efectivul; 

procentele; 
procentele cumulate corespunzătoare. 

Pentru exemplificare, considerăm baza de date tapestry.sav-laşi, din care a 
fost selectată variabila numerică Vârsta. În urma aplicării demersului 
sistematizării datelor, descris în paragraful anterior, a rezultat output-ul 
prezentat în Figura 3.14. 


Observaţie! Elementele tabelului (titlul, sursa etc.) pot fi completate, 
modificate, în funcţie de opțiuni, folosind fereastra de rezultate (Output 
Viewer). În acest scop, prin dublu clic selectăm tabelul pe care dorim să-l 
completăm şi efectuăm asupra sa sau asupra unui element din tabel operaţia 
necesară. Tabelul completat cu elementele sale se prezintă aşa cum se poate 
vedea în tabelul 3.1 


Tabelul 3.1 Distribuția după vârstă a eşantionului de pelerini la Sfânta 
Cuvioasă Parascheva, laşi, Octombrie 2002 






































Vârsta Frequency Percent Valid Percent| Cumulative 

| == i | Percent 

| 16-17 ani | 24 6.0 _6.0 6.0 
18-24 ani 88 22.0 22.0 28.0 
25-34 ani 8 o | 203 | 303 48.3 
35-44ani ——— 75 18.8 18.8 | 670 
45-55 ani 70 17.5 17.5 84.5 

| 55-64 ani | 4 10.0 10.0 94.5 

| >65 ani | 2 ss |. 33 | D 
Total | 400 | 1000 1000 | i 














Sursa : Calculat cu SPSS pe baza datelor TAPESTRY-Iaşi, oct. 2002 
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3.3.3 Tabelul de contingentá 


Tabelul de contingentá se obtine in cazul unei variabile nominale (categoriale), 
procedándu-se in mod asemănător cu tabelul de frecvenţă. Tabelul de 
contingență prezintă efectivul, procentele şi procentele cumulate corespun- 
zătoare fiecărei categorii a variabilei nominale (vezi tabelul 3.2). 


Tabelul 3.2 Distribuţia pe sexe a egantionului de pelerini la Sfânta Cuvioasă 
Parascheva, laşi, Octombrie 2002 
Sexul Frequency Percent Valid Percent Cumulative 


Percent 











| persoanei 























masculin 170 42.5 
feminin 230 | 100.0 | 
| Total 400 | 100.0 | 











Sursa : Calculat cu SPSS pe baza datelor TAPESTRY-Iasi, Oct. 200 


3.3.4 Tabelul de asociere (Crosstabs) 


1 
categoriale. In fiecare rubrică (celulă) a tabelului, este prezentată frecvența 
parțială (ny), adică efectivul care poartă simultan o valoare a fiecărei variabile 


Obtinerea unui tabel de asociere în 





Crosstabs, subordonată comenzii Descriptive 
(vezi figura 3.15) 


După ce se selectează această opțiune, apare pe monitor fereastra Crosstabs 


În partea stângă a acestei ferestre se găseşte lista sursă (lista tuturor variabilelor 





lin baza de « ), din care selectám variabile pentru rânduri şi variabile pentru 
coloane (vezi fisura 3.16). In exemplul dat, s-au considerat vanabilele: „sexul 


ria de varstă 
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Figura 3.15 Alegerea optiunii 
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Figura 3.16 Fereastra Crosstabs 
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Observatie 1. Dacá intr-un crosstabs numárul categoriilor unei variabile este 
mai mare decát al alteia, atunci categoriile acelei variabile se plaseazá pe 
ránduri. 

Observaţie 2. O variabilă numerică poate fi transformată într-o variabilă 
categorială, aşa cum s-a procedat cu variabila vârstă în exemplul considerat 
anterior, utilizând meniul Transform, din care s-a selectat comanda Recode 
(vezi paragrafele 3.4 şi 5.4.1). 

O celulă din crosstabs oferă informaţia despre intersecţia celor două 
variabile. Pentru a obtine astfel de informaţii, se activează butonul de comandă 
Cell din fereastra Crosstabs, care are ca efect afişarea ferestrei Crosstabs: Cell 
Display. Astfel, se poate selecta forma sub care dorim să obținem informația 
din fiecare celulă din crosstabs. Opțiunile sunt grupate astfel: 

- Count. efective (numere) observate — Observed, efective teoretice 

(sperate) — Expected; 

- Percentages: procente pe rânduri — Row, procente pe coloane — Column 

şi procente pe total — Total; 

— Residuals: abateri (reziduuri) nestandardizate — Unstandardized, abateri 

standardizate — Standardized şi abateri standardizate ajustate — Adj. 
standardized (vezi figura 3.16). 


Observatie! Informaţia dintr-un crosstabs trebuie să fie uşor de analizat şi să 


nu se creeze confuzii în interpretare. În acest scop, se recomandă ca într-un 
tabel să se prezinte un singur tip de numere, producând pe rând (succesiv) 
tabelele necesare (de exemplu, un tabel cu numere, alt tabel cu procente). Dacă 
este necesar totuşi să prezentăm comparativ atât numere, cât şi procente, atunci 
acestea se trec unele lângă altele, în ordinea importanţei lor în interpretare. 
Vom exemplifica diferite tabele posibile pentru cele două variabile selectate. 


Observaţie! Pentru partea teoretică, se poate consulta Elisabeta Jaba, 


Statistica, ediţia a 3-a, Ed. Economică, Bucureşti, 2002, capitolul 3). 


3.3.5 Exemple 


1. În tabelul 3.3, esantionul de pelerini este grupat după clasa de vârstă şi după 
sexul persoanei. Rezultatul clasificării este dat în efective (numeric). Astfel, în 


eşantionul observat, sunt 47 de pelerini de sex masculin în vârstă de până la 25 


anl 





de 
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Tabelul 3.3 Vârsta pelerinilor * Sexul persoanei Crosstabulation. Count 
ză 1 
ză 2s Sexul persoanei 
Vársta pelerinilor | ; pasc aia | Total 
masculin feminin 
< 25 ani 47 65 112 
25-64 ani 113 153 266 
>65 ani 10 12 | 22 
| Total 170 230 400 























2. În tabelul 3.4 este prezentat un crosstabs cu rezultatul procentual pe 
rânduri. Acest rezultat se obţine divizând fiecare număr prin totalul rândului 
căruia îi aparține. De exemplu, 42% din totalul pelerinilor tineri sunt de sex 
masculin, iar 58% sunt de sex feminin. Rezultatul poate fi interpretat ca 
probabilitate condiționată exprimând, de exemplu, probabilitatea pelerinilor de 
sex masculin de a se găsi în grupa tânără. 


Tabelul 3.4 Vârsta pelerinilor * Sexul persoanei Crosstabulation % within 
Vârsta pelerinilor 





























Sexul persoanei 
| Vârsta pelerinilor Total 
| masculin - feminin 
<25ani | 42.095. | 580% | 100.0% 
25-64 ani | 425% | — 5454 — | 10002 | 
65 si peste 45.5% | 54.5% 100.0% | 
Total | 425% __57.5%. | | 100.096 | 





3. În tabelul 3.5 este prezentat un crosstabs cu rezultatul procentual pe 
coloane, Se obţine divizând fiecare număr prin totalul coloanei căreia îi 
aparține. De exemplu, 27,6% din totalul pelerinilor de sex masculin fac parte 
din grupa tânără. Rezultatul poate fi interpretat ca o probabilitate condiționată, 
exprimând, de exemplu, şansa pelerinilor din grupa tânără de a aparţine grupei 


masculine. 





Observaţie! Se face distincţie între cele două tipuri de probabilităţi 
condiționate. Astfel, numai 27,6% din pelerinii bărbaţi aparțin grupei tinere, 
dar în grupa pelerinilor tineri bărbaţii reprezintă 42% . 
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Tabelul 3.5 Vârsta pelerinilor * Sexul persoanei Crosstabulation 96 within 


Sexul persoanei 























Vârsta pelerinilor SR oz i Total 
masculin feminin 
25 ani 27.6% 28.3% 28.0% 
25-64 ani 66.5%  ]| 665% |. 66.5% 
65 si peste 5.9% | 5.29 55% | 
Total 100.0% | 100.0% 100.000 — | 











4. In tabelul 3.6 sunt prezentate frecvențele relative procentuale parțiale. Se 
obţin prin divizarea fiecărui număr din totalul eşantionului. Rezultatul poate fi 


interpretat ca probabilitatea fiecărui pelerin de a răspunde la ambele condiții, 


de a aparține la o grupă de vârstă şi de a fi de un anumit sex. De exemplu, 


11,8% din totalul eşantionului de pelerini au şansa d 


masculin. 


Vârsta pelerinilor 


_Tabelul 3.6 Vârsta pelerinilor * 


K 


e a fi tineri si de sex 


Sexul persoanei CrosstabulationY of Total 





Sexul persoanei 





Total 
































masculin | 

i — - 
| «25ani 11.895 | | 28.0% 
O OE L 294 | 2 : 
| 25-64 ani 28.39 | | 66.5% | 
| 65sipeste 2.594 | 5.96 | 
| Total 42.59 | 100.09 

5. [n tabelul 3.7 este prezentat un crosstabs cu rezultatul intr-o formá 


combinată, numere şi procente (clasificarea pelerinilor simultan după cele două 


variabile faţă de totalul rându 


ui căruia îi aparțin). 





Vârsta 
pelerinilor 


Sexul persoanei 


Tabelul 3.7 Vârsta pelerinilor * Sexul persoanei Crosstabulation 








Count 
“owithin 
Vârsta 


pelerinilor 








Total 
masculin feminin 
47 65 112 
42.0% 58.0% 100.0% 
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Count 113 133 266 
55.64 ani Jowithin 

Vársta 42.596 57.5% 100.0% 

i pelerinilor | 

Count | - 10 12 22 

0 "1 1 T S nes [ma i B a 
65 si peste erg xe — 

Vársta 45.5% 54.5% 100.09 

pelerinilor 

Count 170 230 | 400 

Total %within zu 
Vârsta 42.5% 57.5% 100.0% 
pelerinilor 





3.4 Transformarea datelor 


3.4.1 Recodificarea variabilelor folosind comanda RECODE 


Recodificarea variabilelor este o modalitate de transformare a u 
prin combinarea valorilor acesteia într-un număr mai mic de c 
exemplu, vârsta exprimată în ani pentru fiecare subiect poate fi 
^, „adult”, „în vârstă”. Pentru a realiza această tra 
SPSS, este necesar: 

l; 


^ 


categorii: „tânăr 


să se decidă numărul de grupe (de regulă, se limitează la 3 s 


dei variabile 
ategorii. De 
egrupată pe 
1isformare în 


au 4 grupe); 





valori. 
Pentru exemplificare, folosim datele din tabelul 3.8. 


" Tabelul 3.8 Transformarea datelor prin recodificare 


să se verifice dacă fiecare din vechile valori se poate combina în noile 








Vârsta respondentului codificată Noua categorie 


inițial în foaia de date 








18-20 ani 





| Tânăr (1) 








2 -60 ani | Adult (2) 





61 ani şi peste | În vârstă (3) 





Pentru început, atribuim un nume 
recodăm în Vârsta]. 


nou unei variabile. De exemplu, Vârsta o 
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În continuare, se activează comanda Recode din meniul Transform. Această 
comandă are în subordine două opțiuni (vezi figura 3.18): 
Recode Into Different Variables (pentru recodificarea într-o variabilă 


diferită); 
- Recode Into Same Variables (pentru recodificarea în aceeaşi 
variabilă). 


„say - SPSS Data Editor 


sta | Transform Analyze Graphs Utilities Window Help 









Compute.. 
— Random Number Seed... 
Count... 

















e Categorize Variables... 
| Rank Cases... 
2 Automatic Recode... 
2 Create Time Series... 1€ 
2 Replace Missing Values... 5165 
1 7|14 
1 E 8121 g 





Figura 3.18 Comanda Transform — Recode 


Recodificarea într-o variabilă diferită 
Pentru o astfel de recodificare, se selectează opțiunea /nto Different Variables, 
care deschide fereastra Recode into Different Variables (vezi figura 3.19). 


~!) Recode into Different Variables ME. xl 








Input Variable -> Dutput Variable: 


® buna imagine cu ai ^| Dutput Variable 


€» mod placut de a cz 


s mod placut de a cz C] FEN zs 


$» mod placut de a cë 
$» protejeaza mediul | 


® protejeaza mediul r 


3» protejeaza mediul c 





ul persoanei [se I... 





arsta p 


35 statutul la 








35 venitul | 





ib judetul in c 














Figura 3.19 Fereastra Recode into Different Variables 


a» 
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În fereastra Recode into Different Variables se parcurg următorii paşi (vezi 
figura 3.20): 

- se selectează variabila pe care dorim să o recodificăm, de exemplu, 
Vârsta, în lista variabilelor şi se mută în lista variabilelor de recodat; 

- se scrie numele noii variabile, Vârsta], în caseta Name din zona Output 
Variabile; « 

— se scrie în caseta Label eticheta noii variabile; 

— se activează butonul de comandă Change pentru a fi operată modificarea 
numelui variabilei. 





Numeric Variable -> Dutput Variable: 


Dutput Variable 
Name: 





> mod placut de a ce 








[Varsta in trei categorii 





E» 

A don Sus ERU: 
35 protejeaza mediul [ 
® protejeaza mediul r 
* 


Ð protejeaza mediul = 


® sexul persoanei [se If... | 


3b statutul socio-profe 


® venitul lunar al áo Did and New Values... 
ò - 


£^ judetul in care locu 


| | regiunea de pavore | | asti | Reset | Cancel Help 








Figura 3.20 Schimbarea numelui variabilei Vârstă în Vârstă | 


Tot în fereastra Recode into Different Variables, se definesc categoriile 
pentru variabila numerică. Pentru aceasta, se acţionează butonul de comandă 
Old and New Values care deschide fereastra Recode into Different Variables: 
Old and New Values (vezi figura 3.21). 

În funcţie de opţiunea dorită, efectuăm un set de operaţii. 

Pentru a schimba o valoare particulară într-o valoare nouă, se introduce 
valoarea veche în caseta Old Value şi valoarea nouă în caseta New Value şi 
apoi se acționează butonul de comandă Add. De regulă, se schimbă o valoare 
reală cu altă valoare reală. De exemplu, se schimbă 21-60 ani în valoarea 2, 
adică se combină toate vârstele de 21-60 ani într-o singură valoare, 2. 

În acest scop, selectăm butonul de opțiuni Range. Casetele de editare sunt 
folosite pentru a stabili limita inferioară şi respectiv limita superioară a 
intervalului dorit (through — de la-până la). Se scrie 21 în caseta din stânga si 
60 în cea din dreapta. Apoi se selectează butonul de opţiuni Value din zona 
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New Value şi se scrie 2 în caseta de editare, după care se acţionează butonul 
Add. Se procedează în mod analog pentru toate categoriile (vezi figura 3.21). 

Prin clic pe butonul de comandă Continue, se revine în fereastra Recode into 
Different Variables. Prin butonul de comanda OK, se va declanşa recodificarea 
variabilei. Noua variabilă apare în foaia de date, Date View (vezi figura 3.21), 
cu datele de cod corespunzătoare fiecărui caz. 
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Figura 3.21 Recodificarea valorilor unei variabile 


3.4.2 Crearea unei noi variabile folosind comanda COMPUTE 


*5 
Se pot crea noi variabile plecánd de la variabilele vechi, folosind din meniul 
Transform comanda Compute. 
Din fişierul dez reg.sav, vom considera variabile PIB 98, PIB 99, PIB 00. 
Pe baza lor, se pot crea noi variabile, de exemplu, indicatori utilizati in analiza 


seriilor de timp (indicele de variaţie cu bază mobilă, indicele de variaţie cu 
bază fixă, sporul cu bază mobilă, sporul cu bază fixă etc.). 


Comanda Compute din meniul Transform deschide fereastra Compute 
Variable (vezi figura 3.22). 
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Figura 3.22 Deschiderea ferestrei Compute Variable 


În fereastra Compute Variable, se parcurg următorii paşi: 

în caseta Target Variable, se scrie numele noii variabile, de exemplu 

PIB99 98; 

- în caseta Numeric Expression, se introduce formula de calcul pentru 
această nouă variabilă. Această operaţie se poate efectua pe două căi: 

— se selectează prima variabilă din lista variabilelor şi se mută, cu 
ajutorul butonului săgeată, în caseta Numeric Expression; operatorii, 
operanzii şi eventual funcțiile folosite în formulă se selectează prin 
clic de mouse de pe butoanele corespunzătoare. De exemplu, pentru 
împărțire, se selectează semnul ,/", care se mută în caseta expresiei 
numerice (vezi figura 3.23). Prin butonul OK, comanda este preluată 
de SPSS, iar noua variabilă se poate vedea în fereastra editorul de 


date; 
— se introduce de la tastaturá formula direct in caseta Numeric 
Expression. 


Pentru noua variabilà, rezultatá din raportarea celor douá variabile, se poate 
introduce, in foaia Variable View, numele complet, de exemplu, Indicele PIB 
1999/1998. 

Se poate, de asemenea, crea o nouă variabilă, modificând o variabilă veche 
prin multiplicarea sau reducerea valorilor acesteia cu o constantă etc. 
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Figura 3.23 Calculul unei noi variabile, PIB99 98, prin Compute Variable 























3.5 Modificarea unui tabel în SPSS 


În paragraful 3.3.2 s-a menţionat cum se poate completa un tabel cu elementele 
necesare interpretării corecte a distribuţiei prezentate. În continuare, vom 
preciza cum se poate modifica un tabel în SPSS. O astfel de operaţie presupune 
parcurgerea următorilor paşi: 

- dublu clic asupra tabelului afişat în fereastra de rezultate Output — SPSS 
Viewer. În felul acesta se selectează tabelul pe care dorim să-l modificăm 
şi, totodată, se afişează bara cu instrumentele Formatting, iar în bara 
meniu apare meniul Pivot (vezi figura 3.24); 





Figura 3.24 Bara de instrumente Formatting 


- se selectează din meniul Pivot comanda Pivoting Trays sau din bara de 
instrumente Formatting, pictograma Pivotting, care deschide fereastra 
Pivoting Trays (vezi figura 3.25); 
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Figura 3.25 Fereastra Pivoting Trays 


se schimbă locul pictogramelor floare, prin „tragerea? lor (tehnica 
drag&drop) de pe rânduri pe coloane si invers, în funcție de ce variabile 
dorim să fie schimbate (vezi figura 3.26). Ca urmare a acestei operații, se 
produce modificarea tabelului selectat (vezi figura 3.27). 
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Figura 3.26 Caseta Pivoting Trays de modificare a tabelului de rezultate 
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Figura 3.27 Caseta Pivoting Trays, cu icoanele schimbate si tabelul modificat 


O altă modalitate de modificare a unui tabel o reprezintă folosirea meniului 
rapid apelat din fereastra de rezultate, când mouse-ul este plasat pe tabelul dorit 
(vezi figura 3.28). 
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Figura 3.28 Apelarea meniului rapid pentru modificarea unui tabel 








CAPITOLUL 4 


REPREZENTAREA GRAFICA A UNEI DISTRIBUTII 
IN SPSS 








e Elemente introductive 
e Grafice pentru distribuții după o variabilă cantitativă 
e Grafice pentru distributii după o variabilă calitativă (nominală) 


e Grafice pentru distribuții bivariate 





e Modificarea unui grafic în SPSS 
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4.1 Elemente introductive 


Graficele prezintă in mod sintetic, sub formă vizuală, o distribuţie statistică. Cu 
ajutorul graficelor se poate avea, dintr-o singură privire, o viziune de ansamblu 
asupra datelor. 


4.1.1 Elementele unui grafic 


Pentru a fi uşor de interpretat, un grafic, pe lângă diagrama propriu-zisă, 
trebuie să aibă precizate următoarele elemente: 

— titlul graficului oferă informaţii asupra fenomenului reprezentat. Titlul 
graficului coincide cu titlul tabelului de date; 

— axele de coordonate sunt folosite pentru a reprezenta variabilele (cu 
unitățile de măsură corespunzătoare) şi au scala de măsură precizată. Pe 
abscisă se înscrie variabila de distribuţie (variabila independentă), iar pe 
ordonată frecvenţa (sau variabila dependentă); 

— legenda este folosită pentru a explica elementele din diagramă; 
sursa precizează originea datelor reprezentate. 


Citirea unui grafic presupune observarea şi interpretarea diagramei atât în 
ansamblul ei, cât şi a oricărui punct de pe diagramă. Fiecare punct de pe grafic 
reprezintă relaţia dintre variabilele considerate pe axe, ceea ce implică 
verificarea gradatiei axelor (dacă încep sau nu cu zero). 


Observaţie! Pentru mai multe detalii, vezi Elisabeta Jaba, Statistica, ediția 
a Il-a, Editura Economică, Bucureşti, 2002, pp. 59-60. 


4.1.2 Tipuri de grafice 


Alegerea graficului pentru reprezentarea unei distribuții se face în funcție de 
scopul urmărit şi depinde esenţial de numărul variabilelor considerate, precum 
şi de tipul acestora. SPSS oferă o paletă foarte largă de tipuri de grafice. 
Acestea, precum şi modalităţile de obţinere a lor sunt organizate, în principal, 
în meniul Graphs (vezi figura 4.1). 
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Figura 4.1 Meniul Graphs 


De asemenea, pot fi obținute grafice si cu ajutorul butoanelor de comandă 
Charts sau Plots, prezente în anumite ferestre de dialog, deschise de comenzile 
meniului Analyze. De exemplu, fereastra Frequencies: Charts (vezi figura 4.2). 
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Figura 4.2 Fereastra Frequencies: Charts 
Cele mai uzuale grafice din meniul Graphs sunt cele prezentate mai jos. 
Bar. Diagrama în bare este folosită pentru a reprezenta grafic mediile 
diferitelor grupe dintr-o colectivitate (Summaries for groups of cases) sau 
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valorile medii ale diferitelor variabile pentru aceeaşi colectivitate (Summaries 
of separate variables). 

Line. Diagrama liniară este folosită pentru a reprezenta, de regulă, valori 
medii. 

Pie. Diagrama de structură „plăcintă” este folosită pentru reprezentarea 
frecvențelor absolute (numere) şi/sau relative (procente) pe categorii/grupe. 

Boxplot. Diagrama „cutia cu mustáti" este folosită pentru a prezenta 
amplitudinea, intervalul interquartilic şi mediana unei distribuții. 

Error Bar. Diagrama „bara erorilor” este folosită pentru a arăta media si 
intervalul de încredere de 95% pentru media respectivă. 

Scatter. Diagrama „norul de puncte” este folosită pentru a reprezenta 
relaţiile între variabile. 

Histograma. Este folosită pentru a arăta forma unei distribuții după o 
variabilă înregistrată asupra unei colectivități (frecvențele de apariție pentru 
diferite clase de valori ale variabilei observate). 

În continuare, vom prezenta construcţia câtorva diagrame folosind fie 
meniul Graphs, fie butoanele de comandă Charts sau Plots din ferestrele de 
dialog subordonate anumitor comenzi din meniul Analyze. 


4.2 Grafice pentru distributii după o variabilă cantitativă 
4.2.1 Histograma şi curba frecvențelor 


Aceste diagrame permit vizualizarea formei unei distribuții statistice după o 
variabilă cantitativă continuă, divizată pe intervale, egale sau inegale. 


Histograma. Construcţia histogramei se face într-un sistem de două axe 
rectangulare: pe abscisă se înscriu valorile variabilei cantitative, sub formă de 
intervale (clase de valori), iar pe ordonată numărul de observaţii sau frecvenţa 
relativă corespunzătoare fiecărui interval. Pentru variabila cantitativă, se ia un 
număr de intervale (k) egal cu rădăcina pătrată din numărul de observaţii (n) 
sau k=] +3.322 Ign. Se recomandă să fie utilizată histograma când n > 50. 

SPSS oferă mai multe modalităţi de obținere a unei histograme. Prezentăm 
în continuare câteva dintre acestea. 

a. Comanda Histogram, din meniul Graphs. 
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In fereastra de dialog Histogram (vezi figura 4.3), selectăm variabila pentru 
care dorim să construim histograma, prin clic asupra ei, si o trecem în caseta 
Variable. Se poate adăuga curba frecvențelor, prin bifare în caseta de validare 
corespunzătoare (Display normal curve), apoi, prin activarea butonului de 
comandă Titles, se poate adăuga titlul dorit. 
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Figura 4.3 Crearea histogramei prin: 
meniul Graphs — comanda Histogram 


Urmând acest algoritm, construim histograma pentru distribuția pelerinilor 
după vârstă, considerată în exemplul folosit anterior (vezi figura 4.5) 


b. Comanda Interactive cu opțiunea Histogram, din meniul Graphs. 

În fereastra de dialog Create Histogram (vezi figura 4.4), se alege variabila 
de reprezentat si se mută, prin tragere, în caseta axei abscisă. Pe axa ordonatei 
se reprezintă numărul cazurilor în fiecare grupă (interval). Numărul cazurilor 
poate fi exprimat numeric sau procentual, folosind cadrul de pagină Options. 
După stabilirea opțiunilor, prin butonul de comandă OK se obține graficul in 
fereastra de rezultate Output Viewer (vezi figura 4.5). 
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Figura 4.4 Crearea histogramei prin: 
meniul Graphs — comanda Interactive — opțiunea Histogram 
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Figura 4.5 Distribuţia după vârstă a pelerinilor din eşantionul Tapestry-lasi, 
octombrie 2002 
Interpretare. Se observă că, pe ansamblu, eşantionul are o distribuţie după 
vârstă asimetrică la dreapta, predominând vârsta tânără. Clasele 15-25 şi 25-35 
de ani au frecvențele cele mai mari, însumând împreună aproximativ jumătate 
din volumul eşantionului. 


c. Comanda Frequencies din meniul Graphs. 

O altă cale de construire a histogramei în SPSS este oferită de comanda 
Frequencies, prezentată în secțiunea precedentă, selectând succesiv: meniul 
Analyze — comanda Descriptive Statistics — opţiunea Frequencies — butonul 
de comandă Charts — butonul de opţiuni Histogram. 


Curba frecvenţelor. Curba frecvenţelor se obţine prin ajustarea histogramei 
şi este folosită pentru verificarea normalitátii unei distribuții. 

Curba frecvenţelor poate fi suprapusă histogramei, reprezentând distribuţia 
teoretică corespunzătoare, cu aceeaşi medie şi aceeaşi variantà. 
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Un caz particular de curbă a frecvenţelor este curba frecvențelor cumulate. 
Această diagramă se poate obține selectând succesiv: meniul Graphs — 
comanda Interactive — opţiunea Histogram — fereastra Create Histogram. 

Fereastra Create Histogram (vezi figura 4.6) este structurată pe mai multe 
cadre de pagină: Assign Variables, Histogram, Titles şi Options, care, in 
exemplul nostru, sunt folosite astfel: 

in pagina Assign Variables, prin tragere, se stabileste variabila de 
distributie si se bifeazá caseta Cumulative histogram; 

- jn pagina Histogram, se bifeazà caseta Normal curve; 

- în pagina Options, din zona Scale Range, se optează pentru numere 
(Count) sau procente (Percent) pentru axa Y (axa ordonatei). 
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Figura 4.6 Demersul folosit pentru construirea curbei cumulative 
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Figura 4.7 Curba frecventelor cumulate 


Interpretare. Frecventele cumulate reprezintá efectivul care are o valoare 
mai mică decât limita superioară a intervalului (clasei) de variaţie. În 
histograma cumulată, fiecare bară reprezintă suma frecvenţelor cumulate 
anterior acelui interval, plus frecvenţa intervalului curent. În curba frecvenţelor 
cumulate, se citeşte pe ordonată, pentru fiecare punct de pe abscisă, o 
aproximare a frecvenței cumulate până la acel punct. De exemplu, curba 
cumulativă din figura 4.7 ne arată că până la 40 de ani sunt aproximativ 200 de 
persoane. 


4.2.2 Q-Q Plot 


construirea diagramei Q-Q plot presupune parcurgerea următorilor paşi: 
Se alege din meniu Graphs | comanda Q-Q, care deschide fereastra 
dialog Q-Q plots (vezi figura 4.8); 
- Se alege o variabilă (sau mai multe variabile) si se mută în lista 
Variabiles; 
- Sealege modelul distribuţiei test, in acest caz, distribuția normală; 


Q-Q Plot este folosit pentru verificarea normalităţii. Demersul pentru 
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- Optional, se pot alege căi de transformare a variabilei pentru a obține 
diagramele de probabilitate pentru valorile transformate şi se specifică 


metoda de calcul al distribuţiei aşteptate. 
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Figura 4.8 Demersul folosit in construirea diagramei Q-Q Plot 
pentru verificarea normalitáfii unei distribuții 


Un 0-0 Plot compară datele observate cu datele pe care ar trebui să le avem 
dacă distribuţia noastră ar urma perfect o distribuție normală, cu aceeaşi medie 
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şi aceeaşi abatere standard. Valorile observate şi valorile sperate sunt 
comparate pe un grafic, unde pe abscisă sunt valorile observate pentru variabila 
X, iar pe ordonată sunt valorile variabilei Z corespunzătoare. Dacă distribuția 
variabilei X ar fi normală, atunci graficul ar trebui să arate o tendință liniară 
(vezi figura 4.8). 


4.2.3 Boxplot 


Diagrama Boxplot este folosită pentru prezentarea unei distribuții după o 
variabilă numerică, chiar atunci când numărul datelor de care dispunem este 
mic. Construcţia sa presupune ordonarea datelor şi împărțirea lor în patru 
grupe, fiecare grupă reprezentând 25% din distribuţie. Sunt marcate astfel cinci 
valori ale variabilei, şi anume: valoarea minimă şi valoarea maximă, fără 
outlieri, quartila 1, quartila 3 şi mediana (vezi figura 4.9) . 








« E Maximum (fará outlieri) 
Mm Percentila 75 (Quartila 3) 
i -—— Mediana (Quartila 2) 
«——— Percentila 25 (Quartila 1) 
«t — Minimum (fárá outlieri) 


Outlier (observatie 


«4—— — 
* extremă) 





Figura 4.9 Elementele unei diagrame Boxplot 


Exemplificăm construcția diagramei Boxplot în SPSS pe baza distribuției 
după vârstă, considerată anterior. Demersul de urmat, la fel ca la histogramă, 
poate fi realizat prin comanda Boxplot din meniul Graphs (vezi figura 4.10) 
sau selectând succesiv: meniul Analyze — comanda Descriptive Statistics — 
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optiunea Explore — butonul de comandá Plots — fereastra Explore-Plots (vezi 


figura 4.11). 
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Figura 4.10 Comanda Graphs — Boxplot 


Boxplot din figura 4.11 ne prezintá, la fel ca histograma din figura 4 


distribuţie relativ omogenă cu asimetrie pozitivă. 
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Figura 4.11 Construirea diagramei Box plot prin demersul: 
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meniul Analyze — comanda Descriptive Statistics — opțiunea Explore — 


Plots — Boxplots 


4.3 Grafice pentru distributii după o variabilă calitativă 


(nominală) 


Distribuţiile după o variabilă calitativă se prezintă grafic, de regulă, prin 


diagrame BAR şi PIE. 


Diagramele in bare (BAR) şi cercul de structură (PIE) permit să se prezinte 
frecvențele la nivelul fiecărei categorii ale unei variabile nominale. Construcția 
lor poate fi realizată folosind fie meniul Analyze, fie meniul Graph. 
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4.3.1 Diagrama BAR si diagrama PIE folosind meniul Analyze 


Într-o primă variantă, se parcurge demersul în care se selectează succesiv: 
meniul Analyze — comanda Descriptive Statistics — opţiunea Freguencies — 
butonul de comandă Charts. 

Din fereastra dialog Frequencies Charts, se stabileşte modul de exprimare a 
valorilor variabilei (frecvențe sau procente) şi se alege butonul de opțiuni 
pentru tipul de grafic dorit: Bar charts (pentru bare) sau Pie charts (pentru 
diagramă de structură). Butonul de comandă Continue determină revenirea la 
fereastra Frequencies, din care se activează butonul de comandă OK care 
finalizează crearea graficului. Diagrama aleasă se obţine automat în fereastra 
de rezultate Output Viewer, putând fi modificată, prin Chart Editor, tipărită la 
imprimantă sau salvată într-un document Word (vezi figura 4.12). 
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Figura 4.12 Construirea diagramelor Bar charts 5i Pie charts prin demersul: meniul 
Analyze — comanda Descriptive Statistics — opțiunea Frequencies — Charts 
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4.3.2 Diagrama BAR si diagrama PIE folosind meniul Graph 


Cea de-a doua variantă presupune demersul: meniul Graphs — comanda Bar 
sau Pie — opţiunea Define Bar (sau Define Pie) — Simple Bar (sau Pie) for 
Groups of Cases — butonul de comandă OK (vezi figura 4.13). 
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Fieura 4.13 Construirea diagramelor Bar charts si Pie charts prin demersul: meniul 


Graphs — comanda Bar sau Pie 
O altă modalitate de construire a acestor diagrame o oferă comanda 
Interactive din meniul Graphs. De exemplu, pentru obținerea unei diagrame 
Bar, se selectează opţiunea Bar care deschide fereastra Create Bar Chart. In 
această fereastră, în pagina Assign Variables, se selectează, prin tragere, 
variabila categorială, iar în pagina Bar Chart Options se stabileşte torma 


barelor (Bar Shape) şi se precizează etichetele acestora (Count şi/sau Value). 
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Butonul de comandă OK salvează setările si creează diagrama în fereastra de 
rezultate Output Viewer (vezi figura 4.14). 
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Figura 4.14 Construirea diagramei Bar chart prin demersul. 


meniul Graphs — comanda Interactive — opțiunea Bar 


Diagrama de structură (Pie chart) şi Diagrama în bare (Bar chart) reprezintă 
o cale de a sintetiza un set de date nominale (categoriale). Asa cum se observá 
in figura 4.12, Pie este un cerc divizat în sectoare. Fiecare sector de cerc 
reprezintă o categorie, aria acestuia fiind proporțională cu numărul de cazuri 
din această categorie a variabilei nominale. Diagrama Bar este adesea folosită 
pentru a ilustra categoriile unei distribuții într-o formă convenabilă. Diagrama 
prezintă atâtea bare câte categorii are o variabilă. Barele au aceeaşi bază, egală 
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cu unitatea, iar înălțimea proporțională cu frecvența categoriei, astfel încât aria 
fiecărei bare reprezintă numărul cazurilor categoriei considerate. De exemplu, 
grupa persoanelor de sex masculin, prezentată în figura 4.14, este formată din 
170 de persoane. 


4.4 Grafice pentru distribuții bivariate 
4.4.1 O variabilă nominală şi o variabilă numerică 


Reprezentarea grafică simultană a unei variabile nominale şi a unei variabile 
numerice este folosită pentru prezentarea mediilor şi abaterilor standard pe 
grupe (categorii). Ca diagrame, sunt alese următoarele tipuri: Histogram, 
Boxplots, Stem-and-leaf. 


În SPSS, pentru construirea unor astfel de diagrame, sunt urmate, de regulă, 
două căi: 


a. Meniul Analyze comanda Descriptive Statistics > opţiunea Explore. 

Se mută variabila numerică în Dependent List şi variabila nominală în 
Factor List. Se alege tipul diagramei dorite (Histogram, Boxplots, Stem-and- 
leaf.) (vezi figura 4.15). 

















$» protejeaza mediul [e ^ Dependent List: 

$ protejeaza mediul m î varsta persoanei [varst 

$ protejeaza mediul at b «P! 81 
è statutul socio-profes E m — D—Z AC GRCGCIMEGE crm ied 
$ venitul lunar al pers: Boxplots Descriptive Continue 

? judetul in care locui Factor List: * Factor levels together v Stem-and-leaf TRU 
& rpvarsta = è sexul persoanei [sexul e ; Cancel 

$ Igvarsta | 4 | | Dependents together v Histogram 

è Zscore: venitul luna = None Help 

$ pvi 

e stpr2cat 


] Label Cases by: Normality plots with tests 


Spread vs. Level with Levene Tesi 


Display * None 
* Both Statistics Plots Statistics.. Plots... 4 Power estimation 
* Transtormed 
| ancheta "75 nu,nua e 3 sau nick Jata data —niciodat ;| Untransformed 





dar n je al iodata niciodata niciodata 











Figura 4.15 Construirea graficelor prin demersul: meniul Analyze — comanda 
Descriptive Statistics — opțiunea Explore 


b. Meniul Graphs — comanda Interactive — opţiunea Histogram. 
Se mută, prin tragere, variabila numerică pe axa abscisei, tar variabila 
nominală în zona Panel Variables. 
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Diagramele pentru distribuția după vârstă si sex sunt prezentate in figurile 4.16 
$i 4.17. 





Histogram Histogram 
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Figura 4.16 Reprezentarea distribuției după vârstă şi sex, folosind histograme 
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Figura 4.17 Reprezentarea distribuției după vârstă şi sex, folosind box plots 


4.4.2 Douá variabile nominale 


Reprezentarea grafică a două variabile nominale este folosită pentru 
prezentarea proporţiilor pe grupe (categorii). În acest scop, sunt alese 
histogramele cu un panel de variabile. Construcţia lor presupune următorul 
demers: meniul Graphs — comanda Interactive — opţiunea Pie — Clustered. 

Output-ul obținut este prezentat în figura 4.18. 
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Figura 4.18. Distribuţia pe sex şi statut socio-profesional, folosind diagrama Pie 


4.4.3 Două variabile numerice 


Reprezentarea grafică simultană a două variabile numerice este folosită pentru 
prezentarea legăturilor dintre fenomene. Ca diagramă, este alesă Scatterplot. 
Demersul urmat în SPSS pentru a construi scatterplot este: meniul Graphs — 


comanda /nteractive — opțiunea Scatterplot. 


In fereastra dialog Create Scatterplot, in pagina Fit, bifám Regression, iar in 
pagina Spikes, bifám Fit Line. Prin comanda OK, se obtine in SPSS Viewer 


scatterplot, cu linia de regresie. 


Exemplificám, folosind datele dez reg.sav, pentru variabilele numerice 
câştigul salarial nominal si investiţiile pe regiuni, România, anul 2002 (vezi 


figura 4.19). 
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Diagrama din figura 4.19 aratá cá intre cele douá variabi 


Figura 4.19 Demersul pentru Scatterplot, 


cu linia de regresie 





e considerate 


(investiţiile şi câştigul salarial nominal) există o legătură liniară, directă, relativ 


strânsă. 
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4.5 Modificarea unui grafic în SPSS 


Modificarea unui grafic în SPSS poate viza orice element al graficului şi se 
efectuează prin Chart Editor. 


4.5.1 Modificarea numărului de intervale pe axa abscisei 


Pentru a schimba numărul de intervale pe axa abscisei, se efectuează demersul 
prezentat în figura 4.20. 
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Figura 4.20 Modificarea numărului de 
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Prin dublu clic pe histogramă, se deschide Chart Editor. Apoi, dublu clic pe 
numerele de sub axa abscisei deschide fereastra Interval Axis. În această 
fereastră, se selectează Custom şi se activează, prin clic simplu, butonul de 
comandă Define. Se deschide fereastra de dialog Interval Axis: Define Custom 
Intervals, în care selectám opţiunea # of intervals şi scriem numărul de 
intervale dorit. În exemplul dat, erau 6 intervale şi le schimbăm cu 4. 

Clic pe butonul de comandă Continue determină revenirea în fereastra 
Interval Axis din care, prin butonul OK, comandăm în SPSS obținerea 
histogramei cu un număr de intervale schimbat (vezi figura 4.21). După 
efectuarea modificării dorite, se închide fereastra Chart Editor. 
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4.5.2 Modificarea numărului de spații şi a orientării etichetelor 
de pe axa abscisei 


Această operaţie începe, ca orice modificare asupra unui grafic, prin dublu clic 
pe diagramă, care are ca efect deschiderea ferestrei Chart Editor. 

În fereastra Chart Editor, prin clic pe etichetele de sub axa abscisei, se 
deschide fereastra Interval Axis. Se activează butonul de comandă Labels care 
deschide fereastra Interval Axis Labels, unde în zona Display se selectează 
opțiunea All labels (pentru afişarea tuturor etichetelor) sau opțiunea Every.. 
labels, pentru a preciza ratia de afişare a etichetelor. În exemplul dat, s-a 
stabilit pasul 2, ceea ce înseamnă că etichetele se vor afişa din două în două. În 
aceeaşi fereastră, se selectează, din lista Orientation, opţiunea dorită, pentru 
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modul în care vor fi orientate etichetele: pe orizontală, verticală, diagonală « 
(vezi figura 4.22). 
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Figura 4.22 Schimbarea ratiei de afişare a etichetelor si a orientării acestora 





Alte modificări asupra elementelor unui grafic se pot realiza aplicând 


demers asemănător. 











CAPITOLUL 5 
PARAMETRII UNEI DISTRIBUTII STATISTICE 














e Indicatori ai tendinței centrale, dispersiei si formei unei distribuții 


statistice univariate 


e Calculul indicatorilor tendinței centrale, dispersiei şi formei unei 


distribuții univariate în SPSS 
e Parametrii unei distributii bivariate (bidimensionale) 


e Calculul parametrilor unei distribuții bivariate folosind SPSS 
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sunt tratati indicatorii folositi pentru caracterizarea unei 
Va fi prezentat modul de calcul (manual şi in SPSS), 
atorilor sintetici descriptivi la nivelul 


Ín acest capitol, 
distributii statistice. 
precum si modul de interpretare a indic 
unui eşantion şi al unei populații. 

Prezentarea indicatorilor se face distinct pentru distribuții univariate şi 
distribuții bivariate, ţinând cont de natura variabilelor şi modul lor de măsurare. 


5.1 Indicatori ai tendinței centrale, dispersiei şi formei 
unei distribuții statistice univariate 


ate într-un tabel de frecvență pot fi rezumate cu 


Datele statistice prezent 
entrale, dispersiei şi formei unei distribuții. 


ajutorul indicatorilor tendinței c 


5.1.1 Indicatori ai tendinței centrale 

Indicatorii tendinței centrale exprimă în mod sintetic şi generalizant ceea ce 
este normal într-o distribuţie din punctul de vedere al unei variabile statistice. 
În jurul lor se grupează celelalte valori observate. Indicatorii tendinței centrale 


sunt prezentaţi pe tipuri de variabile. 


Cazul unei variabile numerice 
Media este punctul de echilibru al tuturor valorilor unei distribuții. Este o 
mărime uşor de calculat. Pentru o variabilă X, media se calculează după 








relațiile: 
x 
u = -£L— , pentru o populatie de volum N; 
n 
Z2 
y=- pentru un eşantion de volu n. 
n 


Mediana (Me) este punctul central al unei distributii, valoarea care separă 


ansamblul datelor unei serii ordonate în două părți egale, 50% din observații se 
găsesc sub această valoare şi 50% se află peste această yaloare. Aflarea 
medianei presupune depistarea directă a valorii centrale. 
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In cazul variabilelor numerice discrete cu frecvențele egale între ele, 
calculul este direct, folosind relația: 


X, 2 * X 


n/2)«l 


Me = x, Me= 


n 





m" P^ 


In cazul variabilelor continue, aflarea medianei se realizeazá prin 
interpolare, folosind relatia: 
Me NE 
VS iza p* 
Me = x, , d ————Z, 
n 


I 


unde: 


n+l 





1 
pe ,N,,-N,-n,iar N, = n 
h=l 
Modul ( Mo), numit si dominantă ( Do), este valoarea cea mai frecventă 
într-o distribuție, adică valoarea unei variabile purtată de frecvența maximă. Se 


poate afla direct, prin citirea valorii x, corespunzătoare frecvenței maxime, în 


- 


cazul unei variabile numerice discrete, şi prin interpolare liniară, în cazul unei 
variabile continue, după relația: 
A, 


Mo 2x,,td——— 
A, +A, 


5 


unde: 


dx -x A -n-n 


i i i-1* 


A, —n,—-nj;. 


Cazul unei variabile nominale 


Pentru o variabilă nominală (categorială), pot fi calculati următorii parametri: 
proportia si modul. 


Proportia este simbolizatá prin p, (pe ansamblul unei populatii de volum 


N ), respectiv f, (la nivelul unui eşantion observat, de volum n), cu i = Z,k, 


unde Kk reprezintă numărul de categorii. Se calculează ca raportul între parte şi 
întreg. Pentru a facilita interpretarea, se foloseşte expresia procentuală, 
inmultind raportul cu 100. Suma lor este egală cu 1, respectiv 100%. 
Modul unei variabile nominale reprezintă categoria cea mai des întâlnită. 
Pentru o variabilă nominală ordinală, în plus, se poate calcula şi mediana. 
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Comparatii intre medie, medianá şi mod 
Toti parametrii tendintei centrale se exprimă în aceleaşi unități de măsură ca ŞI 
variabila observată. 

Media este reprezentativă pentru distribuții omogene, dar este influențată de 
e variabilei observate şi este nereprezentativă pentru 


valorile extreme al 
pretează la calcule algebrice. Media se calculează 


distribuțiile eterogene. Se 
numai pentru variabile numerice. Nu are sens calculul acesteia pentru variabile 
nominale. De exemplu, ar fi absurd să se calculeze media celor două categorii, 
masculin şi feminin, ale variabilei „sexul persoanei”. 

Mediana are avantajul că nu este influențată de valorile extreme ale unei 
serii. dar are dezavantajul cá, netinánd seama de ansamblul datelor, este o 
valoare aproximativă. Mediana se poate calcula şi pentru variabile ordinale. 

Modul are avantajul cá nu este influentat de valorile extreme, este ideal 
pentru populatii eterogene, dar este o mărime aproximativă, depinzând de 
alegerea intervalului dominant. Modul se poate calcula şi pentru variabile 
nominale (categoriale). 

Cele trei mărimi medii fundamentale sunt egale între ele în cazul seriilor 
simetrice, dar sunt inegale în cazul seriilor asimetrice. Media, pe baza celor 
pătrate, minimizează suma pătratelor abaterilor între valorile 
i parametrul tendinței centrale. Această sumă este întotdeauna 
iu egală cu suma pătratelor abaterilor între valorile observate şi 


mai mici 
observate 
inferioară 
mediană sau mod: 


S 
* 
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€ 


n n n 


5 (x; -X) < 5 (x, - Me) si » (x -Xy «Y x - Moy. 
j=l 


= izl izl 


5.1.2 Quantile 


Quantilele sunt márimi care impart o distribuţie într-un număr de părți egale. 
Au acelaşi mod de calcul ca al medianei, aceasta fiind quantila care împarte 
distribuţia în două părţi egale. Quantilele cele mai des utilizate sunt: quartilele, 
decilele şi centilele. 
Quartilele ( Q) sunt în număr de trei şi împart datele în patru părți egale. 
Decilele ( D ) sunt în număr de nouă şi împart datele în zece părți egale. 


Centilele (C) sunt în număr de 99 şi împart datele în 100 de părți egale. 
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Între quantile există relaţia: 
Me = O, z D, =: C . 


Quantilele sunt folosite pentru interpretarea dispersiei. 


5.1.3 Indicatori ai dispersiei 


Dispersia reprezintá fenomenul de imprástiere a valorilor individuale x, ale 
unei variabile X, fatá de nivelul lor mediu. 


Cazul unei variabile numerice 
În cazul variabilelor numerice (tip scală), parametrii dispersiei sunt: 
amplitudinea variaţiei, varianta, abaterea medie pătratică, abaterea medie 
liniară, coeficientul de variaţie. 

Amplitudinea variaţiei exprimă diferența dintre valoarea cea mai mare şi 
valoarea cea mai mică ale unei variabile observate şi se stabileşte după relația: 


AS = 


X "max ^ min a 
Varianta este media pătratelor abaterilor valorilor individuale de la media 
lor. Este un indicator abstract, folosit pentru calculul abaterii medii pătratice. 
Varianta se calculează după relaţiile: 
d (x n) 
o = DER Ope , pentru o populaţie de volum N; 


$^ — -—— —————— , pentru un eşantion de volum n. 


Estimatia variantei unei populaţii, calculată pe baza unui eşantion, foloseşte 
relația: 
n 
(x, -x) 
d du] 


n-1 


Observaţie! Estimarea variantei unei populații pe baza datelor unui eşantion 
presupune divizarea prin n—-1. 
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Abaterea medie pătratică (deviația standard) măsoară dispersia în jurul 

mediei şi se calcuează ca radăcină pătrată din variantà: 
c — 46? „respectiv s = Vs? 

Abaterea medie pătratică se măsoară în aceleaşi unități de măsură ca şi 
media. Cu cât valoarea sa este mai mare în raport cu media, cu atât populația 
este mai eterogená, respectiv cu cât valoarea sa este mai mică în raport cu 
media. cu atât arată o concentrare mai mare a datelor în jurul mediei, populația 


Ea ES 


fiind mai omogená. 
Abaterea medie liniară exprimă distanța medie (în valoare absolută) care 
separă observaţiile individuale față de media lor şi se calculează după relația: 


: D 
d = 


n 


Coeficientul de variaţie este un parametru al dispersiei, calculat in expresie 
relativă. Se află fie ca raport între abaterea medie pătratică şi medie, fie ca 
raport între abaterea medie liniară şi medie, după relațiile: 

s d 
v-2—.100; v2—-.100. 

X 

Pentru facilitarea | raportul se multiplicá cu 100, exprimándu-se 
procentual. Coeficientul de variatie este, astfel, independent de unitatea de 


măsură. 


Cazul unei variabile nominale 
în cazul variabilelor nominale, pentru măsurarea dispersiei, se calculează 
indicatorii diversificării, cel mai cunoscut fiind indicele de diversificare. 


Indicele de diversificare este cunoscut în literatura de specialitate! şi sub 
denumirea de valoarea Agresti, V, . 

Valoarea V, reprezintă suma probabilităților ( p; ) ca douá unitáti statistice 
dintr-o colectivitate N să facă parte din categorii diferite, k, definite după o 
variabilă ES X, la nivelul colectivitátii: 


V. L5 :(1— p). 


I= 





|. A. Agresti, Categorical Data Analysis, John Wiley & Sons, New York, 1990, p. 24. 
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Considerând frecvenţa relativă f, drept estimator al lui p;, se poate nota: 


V, -Y f1-f)-1-M ff 
li il 


Valoarea V., folositá ca másurá a dispersiei unei serii calitative, poate lua 


valori in intervalul: o; -—|. Valoarea minimă (0) corespunde cazului în care 
k | 
toate unitățile unei colectivități aparțin unei singure categorii; valoarea maximă 
este atinsă în cazul unei distribuții uniforme (frecvenţe egale) in cele k activităţi. 


De exemplu, considerând distribuţia populaţiei ocupate pe 11 grupe de 
activităţi ale economiei nationale, în România, martie 1995, se obtine: 





k 

Ve-1 » f = ] — 0,248 = 0,752 (Sursa: Calculat pe baza datelor din „Ancheta 
l 

asupra forței de muncă in Gospodării” [AMIGO], p. 13, martie, 1995, C.N.S., 


A : E ( 1) AS x 
România). Valoarea maximă de [2-7 |= 0.909 arată, pentru exemplul 


considerat, o inegalitate accentuată a grupelor de activități după numărul 


5 
o 


populatiei ocupate. 


5.1.4 Indicatori ai formei unei distributii 


Pentru aprecierea formei unei distributii, se folosesc: 
coeficientul de asimetrie; 
- coeficientul de boltire sau aplatizare. 


Coeficientul de asimetrie exprimă gradul de dezechilibru al unei distribuții 
şi se calculează ca raport între momentul centrat de ordin trei (u,) la puterea a 


doua şi momentul centrat de ordin doi (u,) la puterea a treia, după relaţia: 


p, = Es : 
H 
Când valoarea coeficientului de asimetrie variază între —1 si 0 indică 
prezența unei distribuții asimetrice negative, cu abatere spre stânga, iar când 
variază între 0 si 1 indică o distribuție cu asimetrie pozitivă, cu abatere spre 
dreapta; când ia valoarea 0 indică prezența unei distribuții simetrice. 
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O valoare a asimetriei mai mare decât 1 indică o distribuţie care diferă 
semnificativ fată de o distribuţie normală, distribuție simetrică. 

Observaţie! Deoarece majoritatea testelor statistice presupun o distribuție 
normală. este bine să se verfice valoarea acestui coeficient. Dacă distribuţia nu 
este normală, se recomandă transformarea datelor sau aplicarea testelor 
neparametrice, care nu impun restrictia de nomalitate a unei distributii. 


Coeficientul de boltire sau aplatizare (kurtosis) se calculeazá in functie de 
momentul centrat de ordin patru (p, ) şi momentul centrat de ordin doi (Hu) 


după relaţia: 


y; 2—I-—3. 
Ha 
Kurtosis-ul este o măsură a răspândirii fiecărei observații în jurul unei valori 
centrale. Pentru o distrubutie normală, valoarea kurtosis-ului statistic este 0 si 
se numeşte distribuție mezocurtică. Atunci când coeficientul este mai mare ca 
zero, indică o grupare mai puternică a valorilor în jurul valorii centrale, curba 
este mai boltită decât o distribuție normală şi se numeşte distribuție 
leptocurticá. Atunci când coeficientul este mai mic decât zero, indică o grupare 
mai slabă în jurul valorii centrale, curba frecvențelor este mai aplatizatà şi se 


numeşte distribuție platicurtică. 


5.2 Calculul indicatorilor tendinței centrale, dispersiei şi 
formei unei distribuții univariate în SPSS 


Calculul indicatorilor tendinței centrale, dispersiei şi formei unei distribuții 
univariate cu ajutorul SPSS poate fi realizat prin mai multe cái. În continuare 
prezentám cáteva optiuni din comenzile meniului Analyze. 


5.2.1 Calculul indicatorilor tendinței centrale, dispersiei şi 
formei unei distribuții prin opțiunea Descriptives: Options 


O primă opțiune de calcul pe care o prezentăm este Descriptives: din comanda 
Descriptive Statistics, subordonatà meniului Analyze (vezi figura 5.1). 






| 
Li 
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Figura 5.1 Selectarea opțiunii Descriptives 


După selectarea opțiunii Descriptives, se deschide fereastra de dialog 
Descriptives (vezi figura 5.2) care ne permite să selectăm variabila/variabilele 
pentru care dorim să calculăm parametrii unei distribuții. 

Prin activarea butonului de comandă Options din fereastra Descriptives, se 
deschide fereastra de dialog Descriptives: Options (vezi figura 5.3). Din 
această fereastră, selectám, prin bifare, în caseta/casetele de validare 
corespunzătoare, indicatorul/indicatorii care urmează a fi calculat(ti). Se pot 
realiza următoarele calcule: 

Mean (media); 
— Sum (suma tuturor observaţiilor); 
- Sid. Deviation (abaterea medie pătratică, numită şi abaterea standard); 
— Variance (varianta); 
— Range (amplitudinea variaţiei); 
— Minimum Şi Maximum (valoarea minimă şi valoarea maximă a 
variabilei selectate); 


T : | o 
— S.E. mean (eroarea medie de selecţie: o. = — ); 
AH 


—  Kurtosis (boltirea); 


Skewness (asimetria). 
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uti Descriptives 






Variable(s]: 





® etapa ancheta [elar 4 
$ numar chestionar [n 





$ mesaj 


® frecventa pelerinaj ir 
> calatorit cu autoturis | d 


calatorit cu taxi [taxi 


S 


> calatorit cu motocicl 
D ralatnrit ru hicinieta | 


[ Save standardized values as variables Üptions... | 


4e dq d» 





Figura 5.2 Fereastra Descriptives 


De asemenea, din aceastá fereastrá, din zona Display Order, se poate 


alege una din posibilităţile de afişare 
crescátoare, ordine descrescátoare etc.). 





v Mean [^ Sum ÎI Continue 


Dépsrion Cancel 


[V Sid deviation — [V Minimum 


Help 
[V Variance [V Mayimum 


[^ Bange [ SE mean 
Distribution 


F^ Kutosis [v Skewness 


Display Order 

G Variable list 

C Alphabetic 

C Ascending means 
C Descending means 








Figura 5.3 Fereastra de dialog Descriptives: Options 


a rezultatelor (lista variabilelor, ordine 


Butonul de comandá Continue din fereastra dialog Descriptives: Options 
determiná revenirea in fereastra Descriptives, din care prin butonul OK se 
comandá obtinerea output-ului ce va fi afigat in fereastra de rezultate Output 
Viewer. Pentru exemplificare, folosim baza de date Tapestry.sav, rezultatul 


fiind prezentat in output-ul din figura 5.4. 
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Figura 5.4 Parametrii distribuţiei ,, Vârsta pelerinilor” din eşantionul Tapestry-laşi, 
octombrie 2002, calculati prin demersul: meniul Analyze — comanda Descriptive 
Statistics — opțiunea Descriptives 


Tabelul de rezultate din output poate fi modificat, de exemplu, prin 
schimbarea locului statisticilor din coloane cu locul variabilelor din rânduri 
(vezi paragraful 3.5). 

Pentru aceasta, prin dublu clic pe tabelul cu rezultate Descriptives Statistics 
apare fereastra Output — SPSS Viewer (vezi figura 5.5), in care selectăm 
comanda Pivoting Trays, din meniul Pivot (vezi figura 5.6). 
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Figura 5.5 Meniul Pivot 
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Figura 5.6 Caseta Pivoting Trays de modificare a tabelului de rezultate 
În caseta Pivoting Trays schimbăm locul icoanelor floare, trecând cele de pe 


coloane pe rânduri, respectiv cele de pe rânduri, pe coloane. Prin această 
operație, se mută variabilele pe coloane si statisticile pe rânduri (vezi 


figura 5.7). 
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Figura 5.7 Caseta Pivoting Trays cu icoanele schimbate 
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5.2.2 Calculul indicatorilor statisticii descriptive prin opțiunea 
Frequencies 


O altă cale de obţinere a indicatorilor caracteristici ai unei distribuții univariate 
presupune următoarele selecții succesive: meniul Analyze, comanda 
Descriptive Statistics, opțiunea Frequencies (vezi figura 5.8). 
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Figura 5.8 Alegerea optiunii Frequencies 


Prin selectarea opțiunii i cete, se deschide fereastra de dialog cu 
acelaşi nume (vezi figura 5.9). În această fereastră, se alege variabila de interes 
$i apoi, prin clic pe butonul de comandă Síatistics, se deschide fereastra 
Frequencies: Statistics (vezi figura 5.10), din care se pot selecta parametrii 
doriți, prin bifare în casetele de validare corespunzătoare. Pe această cale se pot 
afla, pe lângă indicatorii tendinței centrale, indicatorii dispersiei şi ai formei 
unei distribuții, precum si quartilele şi centilele (percentilele). 
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Figura 5.9 Fereastra Frequencie 
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Figura 5.10 Fereastra Frequencies: Statistics 


Output-ul pentru exemplul considerat anterior este prezentat în figura 5.11. 
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Figura 5.11 Parametrii distribuţiei ,, Vársta pelerinilor” din eşantionul Tapestry-lasi, 


octombrie 2002, calculati prin demersul: meniul Analyze — comanda Descriptive 


Statistics — opțiunea Frequencies 
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5.2.3 Calculul indicatorilor statisticii descriptive prin opțiunea 
Case Summaries 


O a treia cale de calcul al indicatorilor tendinței centrale, dispersiei şi formei 
unei distribuții univariate, folosind SPSS, este posibilă prin selectarea opțiunii 
Case Summaries din meniul Analyze, comanda Reports. Această opţiune 
deschide fereastra Summary Report: Statistics, de unde se pot selecta 
parametrii doriți (vezi figura 5.12) 

Output-ul cu indicatorii selectaţi, pentru acelaşi exemplu considerat în 
paragrafele 5.2.1 şi 5.2.2, este prezentat în figura 5.13. 
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Figura 5.12 Alegerea indicatorilor unei distribuții univariate prin optiunea Case 
Summaries 
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Figura 5.13 Parametrii distribuţiei „ Vârsta pelerinilor” din eşantionul Tapestry-lasi, 
octombrie 2002, calculati prin demersul: meniul Analyze — comanda Reports — 
optiunea Case Summaries 


Observatie! Se poate constata cá in toate cele trei procedee, output-urile 
prezintă aceleaşi valori pentru indicatorii tendinței centrale, dispersiei şi formei 
unei distribuții. 


5.3 Parametrii unei distribuții bivariate (bidimensionale) 


Modul de tratare a unei distribuții bivariate depinde de natura celor două 
variabile care definesc distribuția. 


5.3.1. Alegerea modului de tratare a unei distribuții bivariate 


Pentru o distribuţie bivariată cu ambele variabile nominale, tratarea datelor 
presupune: 
construirea tabelelor de asociere şi calculul frecvenţelor condiționate (de 
exemplu, distribuţia după mediul de viaţă şi sexul persoanei); 
— analiza diferenţelor calitative prin calculul şi interpretarea lui X? (hi-pătrat); 
- calculul coeficienţilor de asociere. 


Pentru o distribuţie bivariată cu variabile de natură diferită, o variabilă 
nominală şi una exprimată cantitativ, sunt aplicabile: 

— procedeul indicatorilor factoriali ai dispersiei; 

- analiza variaţiei prin ANOVA. Procedeul ANOVA măsoară impactul 
valorilor unor variabile nominale asupra dispersiei valorilor unei variabile 
cantitative. 
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Pentru o distribuție bivariată cu ambele variabile cantitative, sunt aplicabile: 

- procedeele folosite în cazul anterior gi, in plus, 

- procedeele de determinare a tendinței centrale şi a dispersiei (medii şi 
variante condiționate); 

- procedeele de tratare a legăturii dintre variabile (covariantá, corelatie, 
regresie). 


5.3.2 Medii si variante condiționate 


Pentru caracterizarea unei distributii bivariate cu ambele variabile exprimate 
cifric se foloseşte un sistem de medii şi variante specific: medii şi variante 
condiționate, media şi varianta marginală. 


Medii condiţionate (medii pe grupe) 


— Medii condiționate ale variabilei X în raport cu Y: 
z l NE 
x, =—: y x, Wigs cu jzlp. 
Bu. c" i 


Notatia x; semnifică media condiționată a variabilei Y dacă Y — y;. Se mai 
notează x. 


j 


— Medii condiționate ale variabilei Y în raport cu X: 


e ] 
y; = —- 35 jh. 
o E: 


Variante conditionate (variante de grupá) 


— Pentru variabila X, condiționată de Y = y 


ES 


2 l — : 2 | =% 
Oj = —- y x; -x,)'n,, respectiv o; =—. 2 xn -(x,). 
I XP IS "gh | 


— Pentru variabila Y, condiționată de X= »;: 


^4 


b ox 2 AME" DNE 2 TN. 
O, ae ;—-y;) nj, respectiv o; gu jy y. 
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Varianta mediilor condiționate, respectiv varianfa mediilor de grupă față de 


media generală, 8° , se calculează după relația: 





unde: 


l nae 


x, = Dx “Nijs cuj-lp, 








Naj i 
x media generală (marginală), media pe ansamblul colectivități: 
| m m 
X= » x ie CU fig E Yn. : 
i=l 


5.3.3 Covarianta 


Covarianta a două variabile aleatorii, X şi Y, este o măsură a covariatiei, adică a 
variatiei simultane a acestora, si se notează cov(X,Y ). 

Covarianta este o medie a produselor abaterilor celor două variabile şi sinte- 
tizează valoarea lor arătând sensul corelatiei, respectiv al dependenţei celor două 
variabile X, Y. 


Calculul covariantei se face după relațiile: 
2x, -X)(y; -Y) TN 
- ——, id. 
n 
respectiv, in cazul datelor prezentate intr-un tabel de corelatie, 





cov(X, Y) — 


1 n x ; 
co ( X,Y)2 —XX(x;-X)(y;-Y)nj,1— Lk,]21l,p. 
Hd j : 


Dacă X şi Y sunt două variabile aleatorii independente, covarianta este nulă. 


Reciproca nu este adevărată întotdeauna, adică cov(X,Y)=0 nu implică 
obligatoriu că X şi Y sunt independente. 


Apreciere grafică a covarianfei. Covarianta poate fi pozitivă sau negativă, 
conform dispersiei observaţiilor în raport cu centrul de greutate, de coordonate 
(X, y ), al norului de puncte. 
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Figura 5.14 Ilustrarea poziției valorilor ( x;, y;) în raport cu centrul lor de greutate 


În figura 5.14 se observă că, schimbând originea axelor diagramei de dispersie 
cu centrul de greutate G al norului de puncte, valoarea produselor 
[(x,—-X)(y;-y)] poate fi pozitivă sau negativă. Astfel, se constată că 
produsele abaterilor punctelor observate sunt, în general, pozitive sau negative 
(vezi figura 5.14.a sau figura 5.14.b). 

Proprietăți ale covariantei. Covarianta are aceleaşi proprietăți ca varianta cu 
excepția faptului că valoarea sa poate fi pozitivă sau negativă. 

1. Covarianfa este egală cu diferența dintre media produselor şi produsul 
mediilor celor două variabile: 

au d SPa 

cow X,Y ) 2—Xx;y; -X-y. 

ni 

Această proprietate facilitează calculul covariantei când mediile au valori 
zecimale. 

2. Dacă se schimbă originea de calcul al elementelor, covarianfa nu se 
schimbă dacă şi asupra ei se fac aceleaşi operații: 

cov( X,Y ) - d.d, cov(u,v), unde: 





I ing 
cov(u,v)=—>(u,; —u )(v; —v),in care 
n i 
ecu — x;—X y;—-y 
H-—LXu,ny-—2V,Hu;-———,V,-2———. 
Hi H i Gc. 9g... 


Această proprietate ajută la calculul simplificat al covariantei. 
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Observatie! Covarianta este punctul de pornire pentru calculul si interpretarea 
coeficientului de corelatie. 


5.4 Calculul parametrilor unei distributii bivariate 
folosind SPSS 


Calculul parametrilor pentru o serie bivariată implică obţinerea distribuţiei, în 
functie de variabilele considerate, calculul mediilor şi variantelor condiționate 
(pentru fiecare nivel al variabilei de grupare), al mediei si variantei pe 
ansamblul eşantionului sau populaţiei, precum şi calculul indicatorilor 
factoriali ai dispersiei. 

Pentru exemplificare, folosim baza de date tapestry.sav. Considerăm două 
variabile: vlunar — venitul lunar al persoanei (milioane lei) — şi varsta — vârsta 
pelerinilor, recodificată pe grupe (< 25 ani, 25-64 ani, 65 ani şi peste). 


5.4.1 Aflarea distribuţiei de frecvență bivariate 


' 


Distribuţia de frecvenţă „Venitul lunar * Vârsta pelerinilor” exprimă distribuția 

eşantionului de persoane observate simultan după cele două variabile 

considerate, adică arată câte persoane dintr-o anumită categorie de vârstă au un 

anumit nivel al venitului. Folosind SPSS, distribuţia bivariată se poate obţine 

pe mai multe căi: 

- meniul Analyze — comanda Descriptive Statistics — opţiunea Crosstabs; 
meniul Analyze — comanda Reports — opţiunea Case Summaries; 

meniul Analyze — comanda Descriptive Statistics — optiunea Explore; 

meniul Date — comanda Split File — optiunea Analyze — Reports — 

OLAP Cubes etc. 

Prin demersul Analyze — Descri] 


o distribuţie bivariatá parcurgând paşii prezentaţi in figura 5.15, şi anume: 


tive Statistics — Crosstabs se poate obține 








se deschide fereastra de dialog Crosstabs, în care selectăm variabilele vlunar 
si varsta, din lista variabilelor, şi le mutám în zonele Row(s) şi Column(s); 

din fereastra Crosstabs, activând butonul de comandă Cells, se deschide 
y, în care bifăm modul dorit de afişare a 





fereastra Crosstabs: Cell Disp 


frecvenţelor in crosstabel; 


1 


activarea butonului de comandă Continue ne întoarce în fereastra 
Crosstabs, unde prin OK se comandă SPSS-ului afișarea output-ului, 


prezentat în figura 5.16. 
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Figura 5.15 Comenzi pentru obtinerea unui crosstabel 


Venitul lunar al persoanei * Varsta pelerinilor Crosstabulation 


Varsta pelerinilor 
« 25 ani 25 -64 ani | 65 si peste 





Venitul lunar 
al persoanei 














Figura 5.16 Distribuţia de frecvență „Venitul lunar * Vârsta pelerinilor " 


5.4.2 Calculul mediilor si variantelor conditionate folosind SPSS 


Mediile si variantele condiţionate se obțin cu ajutorul SPSS parcurgând paşii 
prezentați în figura 5.17, şi anume: 
- se selectează meniul Analyze — comanda Reports — opţiunea Case 
Summaries. Se deschide fereastra de dialog Summarize Cases; 
- jn fereastra Summarize Cases selectám variabilele considerate si le 


mutăm prin tragere in zonele Variables, respectiv Grouping Variables; 
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Figura 5.17 Obţinerea mediilor şi variantelor condiționate (pe grupe) şi marginale 


- activând butonul de comandă Statistics din fereastra Summarize Cases, se 
deschide fereastra Summary Report: Statistics, în care selectăm statisticile 
pe care dorim să le calculăm pentru variabila „Venitul lunar” corespun- 
zător fiecărei categorii de vârstă, adică statisticile condiționate (medii 
condiționate, variante condiționate etc.). Statisticile dorite se selectează din 
lista Statistics şi se mută în zona Cell Statistics; 

- prin clic pe butonul de comandă Continue, ne întoarcem în fereastra 
Summarize Cases, unde prin butonul OK cerem să se afişeze output-ul 
cu statisticile dorite pentru variabila „Venitul lunar”, corespunzător 

fiecărei categorii de vârstă (vezi figura 5.18). 
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Figura 5.18 Medii şi variante ale venitului lunar conditionate de grupa de vârstă a 
pelerinilor, precum şi valorile marginale ale acestor indicatori 


Interpretarea elementelor din output-ul prezentat în figura 5.18: 

N — numărul de persoane intervievate, pe fiecare categorie de vârstă. De 
exemplu, au fost intervievate 266 de persoane din grupa de vârstă 25-64 ani; 

Sum — suma venitului lunar, pe fiecare categorie de várstá; de exemplu, cele 
266 de persoane din grupa de várstá 25-64 ani au realizat pe ansamblul grupei un 
venit lunar de 892 milioane de lei; 

Mean — media (la nivelul fiecárei categorii de várstá); de exemplu, oricare din 
cele 266 de persoane din grupa de várstá 25-64 ani realizeazá in medie un venit 
lunar de 3,3534 milioane lei ; 

Variance — varianta variabilei „Venitul lunar" este calculată pentru fiecare 
categorie de vârstă; 

Std. Deviation — deviația standard sau abaterea medie pătratică arată cu cât se 
abate în medie venitul lunar câştigat de o persoană din grupa de vârstă considerată 
față de venitul lunar mediu al grupei. De exemplu, pentru grupa de vârstă 
considerată, abaterea medie este de 2,6541 milioane lei, adică aproximativ 68% 
dintre persoanele din grupa de vârstă 25-64 ani realizează un venit mediu lunar 
cuprins într-un interval egal cu media grupei plus sau minus valoarea abaterii 
medii pătratice, respectiv: 3,3534 + 2,6541 milioane lei; 

Std. Error of Mean eroarea standard a mediei (eroarea medie de 
reprezentativitate) pentru fiecare grupă de vârstă. Acest indicator este folosit 
pentru estimarea, prin interval de încredere, a mediei populaţiei, pentru fiecare 
grupă de vârstă. 

Ultima coloană a tabelului din figura 5.18 arată valorile prezentate mai sus 
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varianta mareinalá pentru variabila „Venitul lunar" al esantionului observat. 
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OLAP Cubes. Acest demers şi output-ul corespunzător sunt prezentate in figura 
5.19 si figura 5.20. 





Current Status: Analysis by group off 





Figura 5.19 Fereastra Split File 
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Figura 5.20 Alegerea statisticilor prin demersul. 


meniul Analyze — comanda Reports — opțiunea OLAP Cubes 
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5.4.3 Obtinerea covariantei folosind SPSS 


Covarianta se obtine se 
optiunea Bivariate. Aceastá optiune c 
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care activám butonul de comandá Options. Ca efect, se deschide fereastra 


Bivariate Correlations: Options, in care bifám caseta Cross-product deviation 


and covariances pentru a calcula covarianfa (vezi figur 
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Din fereastra Bivariate Correlations: Options se activeazá butonul de 


comandă Continue, care determină revenirea în fereastra Bivariate Corr elations, 
din care se selectează butonul OK pentru a comanda SPSS calculul covariantei. 
Output-ul ne prezintă o covarianfá dintre venitul lunar ŞI vârsta pelerinilor egală 
cu 0,186 şi o corelaţie Pearson egală cu 0,138. Aceste rezultate ne arată că între 
cele două variabile există o legătură directă, semnificativă la un nivel de risc de 
0,01, adică are loc o creştere a veniturilor în funcţie de vârstă, dar legătura este 
destul de slabă, coeficientul de corelaţie luând o valoare relativ apropiată de zero. 


5.4.4 Indicatori factoriali ai dispersiei 


Varianta de grupă (o7) sau varianfa intragrupă (varianta condiţionată) 
măsoară influența factorilor întâmplători, factori care determină variația în 
cadrul unei grupe. 

Media variantelor de grupă (o^) măsoară influența medie a factorilor 
întâmplători la nivelul întregii colectivități. 

Varianţa mediilor de grupă față de media generală (52), numită şi varianta 
intergrupe (varianta mediilor condiţionate), exprimă influența factorilor 
esentiali (factori care contribuie la separarea grupelor tipice în cadrul 
colectivitátii), respectiv variația mediilor grupelor faţă de media generală. 
Varianfa generală, o° (varianta marginald), include influenta ambelor 
categorii de factori, exprimánd variatia valorilor (x;) în jurul mediei 


colectivitátii totale (x, — x ). 


Observaţie! Indicatorii factoriali ai dispersiei, întrucât exprimă o variantà 


(exceptie, media variantelor de grupă), au acelaşi mod de calcul ca si varianta. 


Regula de adunare a variantelor 


Varianta generalá (c^) este egală cu suma celor două variante care măsoară 
influența celor două categorii de factori: 


variantei, după relaţiile: 





da^ = +87 

Variația sub influența Variația sub influenţa Variația sub influența 
factorilor întâmplători = factorilor intámplátori + factorilor 

şi esentiali (variația reziduală) esentiali 


Pe baza relaţiei de mai sus, se poate afla mărimea oricărei părți componente a 








Parametrii unei distribuții statistice 

















Coeficienti de măsurare a influenţei celor două categorii de factori. Plecând 
de la regula de adunare a variantelor, se pot calcula doi coeficienți: 
— coeficientul influenţei factorului de grupare (4, ), calculat după relaţia: 


— coeficientul influenței factorilor întâmplători ( k,), calculat după relaţia: 


ka = E. 
RE 


Suma celor doi coeficienți este egală cu / sau 700%: 





> (k; tk, = 100% ). 
[ 52 ) [ ad 
Observatie! Cu cát valoarea lui | e 100 e rc 100 |, cu atát factorul de 
LO” j gU J 


grupare are o influență mai mare asupra variației caracteristicii de distributie a 
colectivității. 


Indicatorii factoriali ai dispersiei în cazul unei variabile alternative 
(dichotomice) 


Varianta de grupă se calculează după relaţia: 


Media varianțelor de grupă ( o; ) se calculează după relația: 


K 


Sp jd ns 


o; ———————,jzkk grupe . 
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Varianta mediilor de grupă față de media generală (5; ) se calculează după 





relaţia: 
k a K 
So P^ Pi faj > p;nej 
Ge = ——— „unde p= =. 
| She; SD 


Exemplu de obtinere a indicatorilor factoriali ai dispersiei, folosind statisticile 
calculate cu ajutorul SPSS. Considerám output-ul privind venitul lunar pe 
categorii de várstá, prezentat in figura 5.18. 

Se cere: 

l. Să se măsoare dispersia sub influența factorilor întâmplători pe ansamblul 
datelor; 

Să se determine dispersia sub influenţa factorilor esentiali (de grupare); 

Să se măsoare dispersia pe ansamblu, folosind regula de adunare a 


t N 


variantelor. 


Rezolvare 

1. Influenţa factorilor întâmplători asupra variaţiei unei caracteristici se 
măsoară prin varianta de grupă şi media variantelor de grupă. 

Influenţa factorilor întâmplători pe total se măsoară prin media variantelor de 


grupă (o°): 


Von 
-— / . 








— 4323.112* 7,044-266--0,909.22  2377,878 _ - 1695 
+ = = = - 5 ER), EE s E S 044695 
O = ( 
N n 400 ZU) 
o= 4 g^ = 45,944695 = 2,43817 milioane lei 
Int ilul mediu de variatie sub influenţa factorilor întâmplători (alţii decât 


apartenenta la grupa de vârstă) este, pe total: 








Parametrii unei distribuții statistice 





: 12,87 — 2,44 = 0,43 A " 
LET =4 . milioane lei. 
2,87 + 2,44 = 4,31 


2. Dispersia sub influenţa factorului de grupare este exprimată prin varianta 


mediilor de grupă faţă de media generală (5? ): 





(1,96 —2,87)?.112+(3,35 — 2.87)? - 266 + (1,64 
400 








— 0,4682935 


5= 5: = 40,4682935 — 0,6843 milioane lei. 


Intervalul mediu de variaţie, sub influenţa factorilor esentiali (apartenenţa la 
grupa de vârstă), este: 
2,87 — 0,68 = 2,19 


12,87+0,68 = 3,55 


+6 milioane lei. 


3. Dispersia sub influența ambelor categorii de factori se măsoară prin 


varianta totală (o^). 


Folosind regula de adunare a variantelor: 


o =0" +85 = 5,94+0,468= 6.41. 


Observaţie! Diferența de valoare dintre varianta totală a venitului lunar, 
prezentată in output (6,399), si varianta rezultată din regula de adunare a 


componentelor sale (6,41) este datorată aproximárilor de calcul: 


O = 4g" = 2,53 milioane lei 


Intervalul mediu de variaţie, sub influența atât a apartenenţei la grupa de 
ài i 


vârstă, cât si a factorilor întâmplători care au acționat asupra c 





istributiei in cadrul 


fiecărei grupe, este: 


2:87=2.53= 0:34 
IEO = milioane lei. 
)$973.5 £2 — € f 
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e Distribuţia normală 
e Distribuţia normală standard 


e Calculul probabilităților pentru distribuții normale folosind 


SPSS 


e Verificarea normalitátii unei distribuții folosind SPSS 
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Distribuţia normală este cea mai cunoscută si mai folosită distribuţie 
statisticá, si aceasta din cel putin douá motive. Primul — foarte multe variabile 
statistice, cum ar fi greutatea, înălțimea, vârsta oamenilor, sau numeroase 
variabile specifice lumii afacerilor, de exemplu, venitul populației, profitul 
firmelor, urmează o distribuție normală; al doilea — câteva statistici importante, 
cum ar fi media de selecţie, se distribuie după un model normal. Distribuţia 
normală se constituie ca bază pentru statistica inferențială clasică, folosirea 
rezultatelor cercetărilor prin sondaj plecând de la ipoteza că eşantioanele 
observate provin din populaţii distribuite normal. 

În acest capitol vom prezenta caracteristicile prin care poate fi identificată o 
distribuție normală, vom exemplifica cum se calculează, manual şi în SPSS, 
probabilitățile pentru distribuții normale, vom vedea cum este folosită 
distribuția normală pentru aproximarea altor distribuții de probabilitate. 


6.1 Distribuţia normală 


Simbolizare. 
Pentru o variabilă X, care urmează o lege normală (sau legea Gauss-Laplace), 


de parametri U şi o“, vom folosi notația: X ~ N(w, 0°). 


6.1.1 Funcţia de densitate de probabilitate şi funcția de 
repartiție 


O variabilă aleatorie X este distribuită după o lege normală generalizată dacă 


c 


are o functie de densitate de probabilitate de forma: 





unde: 
e — constantă matematică aproximată prin 
m — constantă matematică aproximată prin 3, 


29 N 
d 
OQ 
3 
OC 


u — media populaţiei; 
O — abaterea medie pătratică (deviația standard); 


^6 


orice valoare a variabilei continue X (—oo € X < 
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Observaţie! De regulă, notația folosită pentru o variabilă este o literă 
majusculă, de exemplu X, iar pentru o valoare a variabilei se foloseşte o literă 
minusculă, de exemplu x;. In SPSS, pentru x; se foloseşte notația q. 


Funcţia de densitate de probabilitate este reprezentată grafic prin curba 
densităţii de probabilitate, curbă cu alură de clopot (vezi figura 6.1 a). 

Funcţia de repartiție a legii normale generalizate are forma prezentată în 
figura 6.1 b şi este definită prin relaţia: 











zi J Se 
F(X) = [e i dt . 
ma] Do = 
e N Jt 
4 | 
——- TUS pd x 
NER k N y 
fix j l / 
j ` "i 
FIX j / Fi 3 / 
Á A Jg 
E a ES. 
= => Ėt u- 
a) b) 


Figura 6.1 Curba normală: a) Densitatea de probabilitate şi b) Funcţia de repartiție 


Aria de sub curba densităţii de probabilitate este egală cu unu. 

Pentru o variabilă continuă, se poate calcula probabilitatea ca o valoare să 
fie cuprinsă într-un interval. Probabilitatea ca o variabilă aleatorie continuă să 
ia o valoare exactă este egală cu zero. 

În modelul f(x), e si z sunt constante, prin urmare o distribuţie normală este 
complet descrisă numai de medie şi abaterea medie pătratică (numită in SPSS 
diferite combinaţii de medie si deviatie standard se 





deviatie standard). Folosinc 
pot genera diferite distributii de probabilitate normale. 
De exemplu, pentru aceeaşi medie, dar cu două deviații standard diferite, se 

ie 


obtin douá distributii diferite (vezi figura 6.2) 
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Figura 6.2. Curbe normale cu aceeaşi medie şi cu deviatii standard diferite, respectiv 
cu medii diferite şi aceeaşi deviafie standard 


6.1.2 Proprietăți ale distribuției normale 


O distribuţie normală este caracterizată prin: 

- Curba normală este simetrică în raport cu ordonata valorii x = 4, 50% din 
observaţii au valori mai mici decât valoarea medie a distribuției şi 50% au 
valori mai mari ca media; 

— Indicatorii tendinței centrale (media, modul, mediana) au aceeaşi valoare; 

- Intervalul interquartilic este cuprins între două treimi din deviația standard 
sub medie şi două treimi din deviația standard peste medie; 

— Variabila aleatoare într-o distrubutie normală are o amplitudine infinită 
(—o0 € X €oo), curba normală nu atinge niciodată axa orizontală a graficului 
(abscisa). Când x— +, funcția fx) tinde spre zero (se apropie asimptotic 
de axa Ox); 

- Funcția f(x) este maximă pentru x 2j si se diminuează pe măsură ce 
valorile variabilei se depărtează de medie; 

- Curba densităţii de probabilitate f(x) are puncte de inflexiune când 
x^g to; o distribuţie normală este unic determinată de medie si de 
variantă: X ~ N(u;o? ). 

În practica economică, numeroase variabile au distribuții care aproximeazá 
proprietăţile unei distribuții normale teoretice, prezentând anumite grade de 
asimetrie şi boltire, o combinaţie infinită a parametrilor (medie şi abaterea 
medie pătratică) şi au o amplitudine finită în raport cu fenomenul observat 








Distributia normalà 








(de regulá, o amplitudine egalá cu intervalul media plus/minus de 3 ori deviatia 
standard). 


6.2 Distributia normalá standard 


Distributia normalá standard este distributia variabilei normale centrate reduse 
Z, numită variabilă aleatorie standard. Valorile variabilei Z, numită şi variabilă 
scor, se obțin ca diferență dintre valorile unei variabile X şi media populației 
divizată prin deviația standard o, respectiv media eşantionului şi abaterea 
medie pătratică corespunzătoare, după relațiile: 


Au iom b 
Z= x „respectiv Z = 
o S 








6.2.1 Functia de densitate de probabilitate a distributiei 
normale standard si functia de repartitie a acesteia 


Funcţia de densitate de probabilitate a distribuţiei normale standard /f(z) si 
functia de repartitie F(z) sunt definite de relatiile: 








TUNE QE a TENE: f des 
fe et ; Fe je dt. 
Proprietăţi: 
f(z) > 6; 
f(-z) = f(z); 


lim f(z)=0; 


[tz E. 


—eo5 


Parametrii distributiei sunt: 
— media M(Z) = [z -f(z)dz = 0; 


-9 
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— varianta V(Z) = [z -f(z)dz = |. 

O distribuție normală standard este o distribuţie a cărei variabilă Z are 
întotdeauna media u = 0 şi deviația standard o = 1, adică urmează o lege de 
distribuţie normală cu media egală cu zero şi deviația standard egală cu unu: 


Z ~ N(0;1). 


Observaţie! In practica statistică, este important să ştim cum se foloseşte 
variabila Z si tabelele distribuției normale, precum şi conversia din scoruri Z în 
percentile şi invers. 


6.2.2 Standardizarea unei variabile X 


Standardizarea unei variabile (transformarea unei distribuții normale într-o 
distribuție normală standard) presupune trecerea de la o distribuţie normală X~ 
N(u,o”) la o distribuția standard Z~ N(0;1), adică efectuarea unei 
transformări asupra tuturor valorilor unei distribuţiei, după relația: 
(0o Re ' 
Z, = ; 
O 





unde: 

x; sunt valori ale seriei observate; 

X ŞI O, valoarea medie şi abaterea standard ale seriei observate. 

Dacă Z este o variabilă normală standard, atunci variabila X = 4-4 6o-Z 
urmează o lege de distribuție normală generalizată, definită de următorii 
parametri: 


M(X)sM(u-*o:Z)-M(u)*o-M(Z)-u; 


3 


V(X)-V(u-o-Z)-V(u)*o? V(ZI=0 . sc 


Deoarece media variabilei Z este egală cu zero, valoarea z = 0 corespunde 
cu valoarea medie a seriei de origine (dacă z =0, x; -x =0), deci x, = x pentru 


z = 0 (vezi figura 6.3). 
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Oricare valoare x, superioară mediei are o valoare corespunzătoare in Z 
superioară lui 0, adică pozitivă, respectiv orice valoare x, inferioară mediei are 


o valoare corespunzătoare în Z mai mică decât 0, adică negativă. 
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Figura 6.3 Corespondenta dintre o distribuţie Z şi o distribuţie a unei 
variabile normale X 


Interpretarea unei distribuții normale este facilitată prin transformarea sa 
într-o distribuţie Z, prin faptul că pentru variabila normală standard Z s-au 
construit tabele, cu ajutorul cărora se pot citi probabilitățile corespunzătoare 
valorilor z, (vezi tabelele Laplace). 

Pentru a obţine probabilitatea unei distribuții normale, este necesar ca 
valorile variabilei X să fie exprimate în unități de abateri standard față de 
medie, adică variabila X să se standardizeze: 

X-2HuctZzZ-oc. 

De exemplu, pentru Z=/, dacă X-N(p, o`), se poate afla probabilitatea ca X 
să ia valori în intervalul definit de valoarea medie, plus/minus o deviatie 
standard. 


(H=S5)-H 


Dacă X 24-96, atunci Z = = —]. Similar, dacă X =u+0, 


[e] 
atunci Z =1. 
Astfel, 
P(u-o<X < u+0)= P(-1 < Z X1) 2 2P(ZX1)-1- 0,6826 « 2/3. 
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Pentru Z = 2, respectiv Z = 3, aflăm probabilitatea în mod analog, şi anume: 


P(u-20 < X <u+20)= P(-2 s Z s2)= 0,954, 
X <u+30)= P(-3<Z <3)= 0,99%. 


P 


P(u -30 


În mod practic, pentru transformarea unei distribuții statistice într-o 
distributie teoretică şi interpretarea acesteia în termeni probabilistici 
parcurgem următorii paşi: 
|. Se calculează media (X) şi abaterea medie pătratică (o) pentru seria 

observată; 

2. Se calculează valorile variabilei normale centrate reduse Z corespunzătoare 
wt (x; - x) Ie m "T 
valorilor x,, adică z, = ———— , numite şi scoruri Z; 
[ex 
3. Se citeşte, folosind tabela Laplace-Gauss!, numită Tabela 1, probabilitatea 
corespunzătoare: P(Z «z,), adică probabilitatea ca o unitate din 
colectivitate să aibă o valoare X inferioară valorii x, considerată. Tabela 
indică valoarea suprafeţei cuprinsă între curbă, axa Ox şi ordonatele în 
x =0 şi x, = z, (vezi figura 6.4). 


JOJ 





X X i Z 
= = —” — » 
0 ? -Z 0 Z 
Figura 6.4 Figura 6.5 
Probabilitatea P(0 < Z < zi) Probabilitatea P(Z > z) + P (Z €—z) 





l. Tabelele furnizează direct datele reprezentând suprafața cuprinsă între curba densității de 
probabilitate (numită „curba Gauss”), axa X si două ordonate considerate, suprafață care 
matematic se poate afla cu ajutorul calculului integral 





Distributia normalá 








Se poate folosi o a doua tabelă Gauss care indică valori corespunzătoare 


ariei exterioare dreptelor x, = —z, x; = Z, arătând probabilitatea P(Z >z 


< — z) care este egală cu/ — 2: P( Z < z )(vezi figura 6.5). 


5 


6.2.3. Obtinerea valorilor variabilei Z folosind SPSS 


)t P(Z 


Valorile variabilei Z (scorurile z) se pot obtine, folosind SPSS, parcurgánd 


următorii paşi: 
Se selectează succesiv meniul Analyze — comanda Descriptive St 
— opțiunea Descriptives; 


atistics 


- Din fereastra deschisă (Descriptives) se alege variabila pe care dorim să 
o standardizăm (să o transformăm în scoruri z) şi o mutăm în zona 


Variable(s); 
- Bifám caseta de validare Save Standardized Values as Variables; 
- Activám butonul de comandă OK. 
Variabila standardizată este salvată in Data File (în exemplul 
Tapestry.sav), in partea dreaptă a foii Data View, şi este automat nut 
urmat de numele variabilei (în exemplul nostru zv/unar — vezi figura 6.6) 
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Figura 6.6. Obținerea valorilor standardizate ale unei variabile X prin: 


meniul Analyze — comada Descriptive Statistics — opțiunea Descriptives 
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Valorile standardizate se mai pot obține, plecând de la media populaţiei şi 
deviatia standard, folosind formula pentru scorul z. 
Demersul de urmat este: 
- Meniul Transform — comanda Compute; 
— Scriem numele noii variabile (zvlunar) in zona Target Variable; 
Dublu clic pe variabila pe care dorim sá o standardizám pentru a o 
introduce in zona Numeric Expression; 
- Scriem formula scorului z pentru această variabilă. Astfel, pentru o 
medie a populatiei egalá cu 2,87 si o abaterea standard egalá cu 2,5296, 
scriem formula: (vlunar — 2,87)/2,5296 in zona Numeric Expression 


(vezi figura 6.7). 
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Figura 6.7. Obținerea valorilor standardizate ale unei variabile X prin: 
meniul Transform —> comanda Compute 


Observație! Standardizarea realizată prin cele două căi duce la obținerea 
aceloraşi rezultate (vezi valorile standardizate zvlunar şi zlunarv, prezentate în 
figurile 6.6 si 6.7). 
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Frequency 
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Figura 6.8 Histogramele si curbele normale pentru variabilele „venitul lunar” şi 
„Zscor ” corespunzător 


Observaţie! Variabila Z are media egală cu zero şi abaterea standard egală 
cu unu. Se observă că, pentru o variabilă X, în cazul dat venitul lunar, şi 
variabila Z corespunzătoare, se obţin histograme şi curbe ale frecvenţelor cu 
aceeaşi alurá; mediile şi abaterile standard ale celor două distribuții coincid 
(vezi figura 6.8 ). 


6.3 Calculul probabilităților pentru distribuții normale 
folosind SPSS 


6.3.1 Aproximarea probabilității pentru o variabilă aleatorie 
normală pe baza frecvențelor relative cumulate 


Pe baza frecvenţelor relative (proporţii) cumulate se poate afla probabilitatea ca 
o valoare a unei variabile aleatorie distribuită normal să aparţină unui interval, 
efectuând în SPSS următorul demers: meniul Analyze — comanda Descriptive 
Statistics — opţiunea Frequencies (vezi figura 6.9). 
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Iv. Display frequency tables 





Statistics... Charts... | Format.. | 


Venitul lunar al persoanei 











Venit Frequency Percent Valid 
Percent 

0-2 200 50.0 50.0 

2-4 106 26.5 26.5 
4-6 53 13.3 13.3 

6-8 16 4.0 4.0 

8 - 10 11 2.8 2.8 

10 si peste 14 3.5 3.5 
Total 400 100.0 100.0 


Cumulative 


Percent 
50.0 
76.5 
89.8 
93.8 
96.5 | 

100.0 








Figura 6.9 Aflarea procentelor cumulate în SPSS — Output-ul Frequencies 


De exemplu, folosind baza de date :apesty.sav, care este procentul 


persoanelor anchetate care au un venit lunar < 4 milioane lei? Dar al celor care 
au un venit lunar in intervalul 8-10 milioane lei? 


distributiei normale. 


persoane anchetate, 76,5% au venitul lunar < 4 milioane lei. 


Procentul observaţiilor totale corespunde ariei de sub curba asociată 
Din output-ul prezentat în figura 6.9, se poate afla că din cele 400 de 


Procentul observaţiilor corespunzător unui interval se află prin scăderea 


procentelor cumulate corespunzătoare celor două limite ale intervalului dorit; 
astfel, pentru intervalul 8-10 milioane, aflăm 96,5-93,8 = 2,7%. Procentele 
cumulate corespund probabilității ca o valoare să se găsească într-un anumit 
interval, de exemplu: P(8 < X < 10) = [P(X < 10 milioane = 0,965) - P(X < 8 = 


0,938) = 0,027]. 








Distribuţia normală 





6.3.2 Calculul probabilităților pentru o variabilă aleatorie 
normală folosind funcţiile disponibile în SPSS 


Funcţiile disponibile în SPSS folosite în calculul probabilităților pentru o 

variabilă normală sunt CDF.NORMAL, CDFNORM, PROBIT si 

IDF.NORMAL. Accesul la aceste funcţii, în SPSS, se face urmând demersul: 
Meniul Transform — comanda Compute. 


O distribuţie normală este unic determinată de medie (4) şi de variantà 

2 > = " 2 S : rad á 2 ^ - 
(c^) astfel, X ~ N(u;o"). Cunoaşterea valorilor u şi o“ permite să se 
determine probabilitatea pe care o are variabila aleatorie de a apartine unui 
interval oarecare: 


P(X < a) sau P(X > a) sau P(a < X < b) = P(X«b) — P(X < a), 


unde: a si b sunt numere. 


În SPSS, calculul acestor probabilititi se poate face direct folosind funcția 
CDF.NORMAL, fără a mai fi necesară standardizarea variabilei X 
(transformarea acesteia în scoruri Z) înainte de calculul probabilității. Sintaxa 
acestei funcţii este CDF.NORMAL (q, u, o ) (vezi figura 6.10). 
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Figura 6.10. Alegerea funcțiilor în Fereastra dialog Compute 
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Calculul probabilității P(X « a) 
Exemplificám calculul probabilității P(X < a), unde X este o variabilă aleatorie 
normală, cu media, şi abaterea standard o, adică probabilitatea ca X să fie 






mai mică decât un număr a; folosim funcția CDF.NORMAL din SPSS, 
considerând variabila „Venitul lunar” din tapestry. sav, cu valoarea medie de 






2 


2,87 milioane lei si abaterea standard de 2,5296 milioane lei. 
Pasii de urmat sunt: 
















Se deschide fereastra Data Editor, in care se introduce o valoare a 
variabilei in prima celulá din foaia de lucru; 

Se alege meniul Transform — comanda Compute; 

În zona Target Variable din fereastra Compute Variable introducem 
numele variabilei pentru a cărei valoare dorim să calculăm 
probabilitatea, de exemplu, ,prob vl" (vezi figura 6.11); 

În zona Numeric Expression introducem expresia funcţiei, selectată din 
lista Functions, CDF. NORMAL(q, mean, stddev), unde q este o valoare 
a a variabilei X. Pentru exemplul dat, CDF.NORMAL(4, 2.87, 2.53); 
Prin butonul OK, se comandă calculul propriu-zis al probabilității. 
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Figura 6.11. Calculul probabilității cu ajutorul funcției CDF. NORMAL 
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Valoarea P(X < 4) = 0,67, calculată pentru variabila X ~ N( 4,0”), respectiv 
X ~ N(2.87, 2.53%), apare în celula de sub numele variabilei prob vl" din foaia 
de lucru a ferestrei Data Editor (vezi figura 6.11). Când valoarea probabilității 
este selectată, în celula de editare este afişată valoarea probabilității cu 15 
zecimale. 
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Figura 6.12 Aflarea probabilității P(X < a) pentru valorile venitului lunar folosind 
funcţia CDF.NORMAL (g, mean, stddev) 





Probabilitátile pentru valorile variabilei v/unar sunt prezentate in figura 6.12 
şi se află urmând acelaşi demers. 


Calculul probabilității P(X > a) şi al probabilității P(a « X « b) 
Calculul probabilității P(X > a) presupune să se găsească 1 — P(X < a). Realizarea 
acestei operaţii cere acelaşi demers prezent mai sus, cu deosebirea că în zona 
Numeric Expression introducem: 1 - CDF.NORMAL(a, 1,0 ). 

Aflarea probabilitátii P(a « X « b) se bazeazá pe relatia: 

P(a « X« b) 7 P(X « b) - P(X « a) 
şi presupune calculul probabilităților P(X « a) si P(X « b), după demersul 
prezentat anterior. 


6.3.3 Calculul probabilităților pentru o variabilă normală 
standard (Z) 


O variabilă normală standard Z este o variabilă cu media zero şi abaterea 
standard 1, Z ~ N(0;1). 
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Calculul probabilităților pentru o astfel de variabilă, în SPSS, presupune 
folosirea funcției CDFNORM. Sintaxa acestei funcții este CDFNORM (q) 
(vezi figura 6.13 ) unde q este o valoare „a” a variabilei Z, pentru care se 
calculează P(Z < a). 

Exemplificăm calculul probabilității corespunzătoare variabilei Z mai mică 
decât 2,5, adică P(Z < 2,5). Demersul este asemănător celui folosit pentru o 
variabilă X şi este prezentat în figura 6.13. 
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Figura 6.13 Aflarea probabilității P(Z < a) folosind funcţia CDFNORM 


6.3.4 Aflarea valorilor variabilei Z şi a valorilor unei variabile 
normale X pentru probabilitáti cunoscute 


Cazul variabilei normale standard Z 

În SPSS, pentru calculul valorilor variabilei normale standard Z, se foloseşte 
funcția PROBIT. Această funcţie are sintaxa PROBIT(prob) şi dă valoarea zo a 
variabilei Z a cărei probabilitate este egală cu prob, adică se calculează zo, 
astfel ca P(Z < zo) = prob. 

De exemplu, pentru a afla P(Z < zo) =0,95, introducem în Numeric Expression 
din fereastra Compute Variable expresia PROBIT (0,95). Se obţine astfel 
pentru zo o valoare egală cu 1,64. 

Pentru P(Z > za) = prob, valoarea zo se află folosind sintaxa PROBIT(I — prob). 


Cazul unei variabile normale X 
În cazul unei variabile normale X, calculul unei valori „a” a variabilei pentru o 
probabilitate cunoscută, adică P(X « a) = prob, se efectuează, în SPSS, 
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folosind funcția IDF. NORMAL, a cărei sintaxă este IDF. NORMAL(prob, 740), 
unde 44,0 reprezintă media şi abaterea standard. 
Pentru P(X > a) = prob, se foloseşte IDF. NORMAL(I — prob, 4,0). 


w 


6.4 Verificarea normalitătii unei distributii folosind SPSS 


Majoritatea testelor parametrice cer îndeplinirea condiției de normalitate pentru 
variabilele considerate, ipoteza de normalitate a unei distribuții fiind una dintre 
ipotezele comune care se presupun în procesul de inferentá statistică. 
Modelarea statistică cere verificarea normalitátii variabilelor implicate. Fără 
respectarea acestei ipoteze, nu ar fi valide interpretarea si inferenta bazate pe 
astfel de modele. 

Prin urmare, este deosebit de important ca, înainte de efectuarea procesului 
de inferentá, să se determine dacă eşantionul observat provine dintr-o populaţie 
normal distribuită. 

În SPSS, se pot folosi două căi de verificare a normalitátii unei distribuții, şi 
anume: 

— vizualizarea grafică a diferențelor dintre o distribuţie empirică şi 
distribuţia teoretică, folosind histograma, boxplot, P-P plot şi Q-Q plot; 
aprecierea numerică a abaterilor distribuţiei empirice de la distribuția 
teoretică, folosind indicatori din statistica descriptivă şi teste statistice. 


6.4.1. Procedeul histogramei 


Folosirea histogramei pentru a diagnostica dacă o distribuţie este normală 
presupune compararea histogramei variabilei observate cu modelul curba 
Gauss. 

Obţinerea acestor diagrame în SPSS presupune următorul demers: meniul 
Graphs — comanda Histogram. 
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Figura 6.14 Obţinerea histogramei şi curbei normale prin demersul: 
Meniul Graphs — comanda Histogram 


În fereastra Histogram se bifează caseta de validare Display normal curve şi 
se activează butonul de comandă OK pentru a obţine output-ul dorit (vezi 
figura 6.14). Ca urmare a operaţiei de bifare în caseta de validare Display 
normal curve, se adaugă o curbă normală la histogramă, cu aceeaşi medie şi 


aceeaşi variantá corespunzătoare distribuției empirice. 


De asemenea, poate fi folosită procedura Frequencies, urmând demersul: 
Se selectează succesiv meniul Analyze — comanda Descriptive Statistics 


— opțiunea Frequencies; 


activează butonul de comandă Charts care deschide 
Frequencies: Charts; 


Din fereastra Frequencies, dupá selectarea variabilei/variabilelor, se 


b În 
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- [In fereastra Frequencies: Charts bifăm caseta de validare With normal 
curve şi actionám butonul de comandă Continue pentru a reveni la 


fereastra Frequencies; 


- Se activează butonul OK, care comandă SPSS obţinerea output-ului 


dorit (vezi figura 6.15). 
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comanda Descriptive Statistics — opțiunea Frequencies 
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Figura 6.16 Histograme pentru venitul lunar, pe categorii de angajati 
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Histograma din figura 6.16 relevă o distribuţie cu un grad mare de asimetrie; 


normalitatea distribuției poate fi pusă sub semnul întrebării. In astfel de situații, 
este posibil să se grupeze datele în funcţie de un factor determinant (cum ar fi 
în cazul nostru „statutul profesional”), folosind funcția Split File din meniul 
Data, şi să se construiască histograme pentru fiecare categorie (vezi figura 


6.16). 


Se observă că, în urma grupării datelor pe categorii, histogramele diferă. 
Pentru categoria „Angajaţi permanent”, histograma relevă o distribuţie cu un 
grad mic de asimetrie, pe când pentru „Alte categorii de angajaţi” se observă o 
asimetrie accentuată. Aceeaşi situaţie este relevată de Q-Q plot (vezi figura 
6.18) şi P-P plot (vezi figura 6.19). 


6.4.2 Procedeul Q-Q plot 


Prin SPSS, se poate obţine diagrama Q-Q (Quantile Quantile) pentru orice 


variabilă, în scopul verificării ipotezei de normalitate (vezi paragraful 4.2.2). 
Pentru variabila ,, Venit" considerată în exemplul nostru, grupată pe categorii 

după statutul profesional, s-a construit Q-Q plot parcurgându-se demersul 

prezentat în figura 6.17. Diagramele obținute sunt prezentate în figura 6.18. 
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Figura 6.17 Fereastra dialog Q-Q plot 
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Figura 6.18 Q-Q plot pentru variabila ,, Venit”, pe categorii de angajaţi 


Q-Q plot compară valorile ordonate ale variabilei observate cu valorile 
quantilice ale distribuției teoretice specificate (în cazul nostru, distribuția 
normală). 

Dacă distribuția variabilei testate este normală, atunci punctele Q-Q 
conturează o linie care se suprapune cu dreapta care reprezintă distribuția 
teoretică, adică trece prin origine si are panta egală cu unu. 

Pentru exemplul dat, Q-Q plot aratá cá punctele nu sunt serios deviate de la 
linia dreaptă în cazul categoriei ,,Angajati permanent", ceea ce indică o 
distribuţie normală. În cazul grupei „Alte categorii de angajaţi”, se constată 
deviații mari, evidențiind abateri de la normalitate, fapt demonstrat şi cu 
ajutorul histogramei (vezi figura 6.16). 


6.4.3 Procedeul P-P plot 


Procedeul P-P plot (Percent Percent) compară funcţia de repartiție a 
distribuţiei unei variabile empirice cu funcţia de repartiție a unei distribuții 
teoretice specificate (în cazul nostru, funcţia distribuţiei normale standard). 

Construirea diagramei P-P plot presupune acelaşi demers prezentat pentru 
Q-Q plot, cu deosebirea că se alege din meniul Graphs comanda P-P. 

Diagramele P-P, pentru exemplul dat, sunt prezentate în figura 6.19 şi 
evidenţiază aceleaşi situaţii ca diagramele Q-Q plot, prezentate în figura 6.18. 

Observaţie! Procedeele grafice, aşa cum s-a constat din diagramele 
prezentate (histograma, Q-Q plot, P-P plot), vizualizează diferențele dintre o 
distribuţie empirică şi o distribuţie teoretică specificată. Interpretarea lor se 
bazează pe intuiţie, fiind încărcate cu subiectivism. 
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Figura 6.19 P-P plot pentru variabila „Venit, pe categorii de angajati 


6.4.4 Procedee numerice (asimetria si boltirea) 


Ca procedee numerice pentru testarea normalităţii unei distributii, în SPSS sunt 
folosite asimetria (Skewness) si boltirea (Kurtosis), precum si testul Jarque- 
Bera, testul Shapiro-Wilk si testul Kolmogorov-Smirnov. 


Asimetria şi boltirea 

Asimetria (momentele centrate de ordin trei) si boltirea (momentele centrate de 
ordin patru) arată in ce măsură distribuţia unei variabile deviază de la forma 
simetrică. Relaţiile de calcul sunt prezentate în paragraful 5.1.4. 

Dacă o variabilă este distribuită normal, atunci are asimetria egală cu zero 
şi boltirea egală cu trei. Dacă asimetria este mai mare ca zero, distribuţia este 
asimetrică la dreapta, având mai multe observaţii în partea stângă a histogramei 
(vezi figura 6.16, diagrama „Alte categorii de angajaţi”) şi invers în cazul unei 
asimetrii la stânga. 

În SPSS, valorile asimetriei şi boltirii se obțin prin demersul: meniul 
Analyze — comanda Descriptive Statistics — opţiunea Freguencies (vezi 
paragraful 5.2.2). Rezultatele obţinute în output pentru exemplul dat (venitul pe 


categorii de angajați) sunt prezentate în figura 6.20. 
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Figura 6.20 Output-ul obținut prin demersul: 
meniul Analyze — comanda Descriptive Statistics — opțiunea Frequencies 


Valorile pentru asimetrie (Skewness) şi boltire (Kurtosis) obținute pentru 
distribuția după variabila „venit” sunt diferite pentru cele două categorii de 
angajaţi, aşa cum a reieşit şi din procedeele grafice. Distribuţia observată 
pentru angajaţii permanenţi prezintă valori mici atât pentru asimetrie, cât şi 
pentru boltire, relevând o distribuţie normală, pe când în cazul altor categorii 
de angajaţi, valorile acestor statistici arată o asimetrie la dreapta pronunțată şi o 
boltire cu abateri mari de la limitele normalitátii. 

Observaţie! Deşi statisticile asimetrie (Skewness) şi boltire (Kurtosis) 
exprimă numeric în ce măsură o distribuţie se abate de la normalitate, totuşi nu 
dau posibilitatea interpretării gradului de semnificație a deviatiei de la 
normalitate. 


6.4.5 Teste de normalitate (Jarque-Bera, Kolmogorov- 
-Smirnov-Lilliefors) 


Testul Jarque-Bera 

Testul Jarque-Bera (JB) este fundamentat pe statistica ce urmează o lege 7" cu 
două grade de libertate, JB ~ y; ,. Acest test cere să se verifice dacă valorile 
calculate ale coeficientului de asimetrie si ale coeficientului de boltire se abat 
de la valoarea 0, respectiv 3. Sub ipoteza de nul a normalitátii, valoarea 
aşteptată a statisticii test este doi. 

Testul de normalitate Jarque-Bera este definit de relația: 
y: (B,-3) | 


| 6 24 





JB-2n: 
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unde: 
yı este coeficientul de asimetrie; 
f)» este coeficientul de boltire; 
n este numárul de observatii; 
6/n si 24/n reprezintă varianta asimetriei, respectiv a boltirii. 


Se stie cá momentele centrate de ordin impar ale unei distributii normale sunt 
egale cu zero, iar momentul centrat de ordin patru este egal cu de trei ori o”. 
Momentele centrate de ordin trei si de ordin patru sunt date de relatiile: 
M (x, =j )* =() 


M(x; — u)* =30*. 


Ca urmare, pentru o distribuţie normală, coeficientul de asimetrie este egal cu 


= 








H5 "Y 2 : u f 
Zero, y, = -== = 0, iar coeficientul de boltire este egal cu trei, A, == = 3. 
Vu #2 


Aşadar, o distribuție normală este simetrică si mezocurtică. 


Regula de decizie: dacă probabilitatea corespunzătoare valorii calculate a 
statisticii JB este superioară lui œ = 0,05, atunci se acceptă ipoteza de 
normalitate, Ho. 

Acest test de normalitate este folosit în programul E-Views. În programul 
SPSS, acest test se calculează manual. 


Testul Kolmogorov - Smirnov - Lilliefors (K-S-L) 

Principiul verificării normalitátii unei distribuții pe baza acestui test constă în 
compararea frecvenţelor reale cumulate- cu frecventele teoretice cumulate 
extrase din tabelul Gauss. 

Ipoteza nulă presupune că cea mai mare diferență absolută dintre frecventele 
cumulate ale valorii x, a variabilei X observate nu depăşeşte o anumită valoare 
extrasă din tabelul K-S-L, pentru un volum (7) dat si un risc admis. 

Verificarea normalitátii prin testul K-S-Z presupune parcurgerea următorilor paşi: 

|. Se calculează efectivele cumulate (N,); 

2. Se calculează valorile p,, adică ponderea efectivelor cumulate în totalul 

populației; 

3. Se află valorile z, corespunzătoare fiecărei valori x,, pe baza valorilor 


X şi s ale distribuţiei observate; 
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4. Se citesc, din tabelul Gauss-Laplace, valorile teoretice p, corespunzătoare 
fiecărei valori z,; 

5. Se calculează diferențele absolute dintre valorile p, $1 py, adică dintre 
frecvențele reale cumulate p, şi frecvențele teoretice cumulate p,, şi se 


alege cea mai mare diferență (în valoare absolută). 


Admitem ipoteza de normalitate, adică ipoteza H} (ipoteza nulă), dacă la 
diferența maximă calculată găsim în tabelul K-5-L o valoare critică mai mare 
decât aceasta, pentru un volum dat al colectivității şi un risc admis. 

În SPSS. verificarea normalitátii cu ajutorul testului K-5-L presupune 
următorul demers: meniul Analyze — comanda Nonparametric Test — optiunea 
One-Sample Kolmogorov-Smirnov Test (vezi figura 6.21). 
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Figura 6.21 Testul K-S-L corespunzător aplicat la cele două distribuții ale variabilei 


venit”, pe categorii de angajaţi, şi output-ut 
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Un nivel redus al gradului de semnificaţie (Sig. mai mic decât 0,05), aşa 
cum a rezultat pentru exemplu dat (vezi figura 6.21). arată că distribuția diferă 
semnificativ de forma distribuţiei normale. 

Aplicarea testului K-S-L în SPSS este posibilă şi pe calea: meniul Analyze — 
comanda Descriptive Statistics — opțiunea Explore. 

- [n fereastra Explore se activează butonul de comandă Plot, care deschide 
fereastra Explore: Plots, unde se bifează caseta de validare a opțiunii 
Normality plots with tests; 

- Prin butonul de comandă Continue se revine în fereastra dialog 

principală, unde, prin comanda OK, se cere ca SPSS să producă atât 
testul K-S-L, cât şi normal Q-Q plot. 
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Datele folosite in procesul cunoasterii statistice sunt, de regulă, rezultatul 
observării unui eşantion reprezentativ extras dintr-o populație, foarte rar 
populaţia țintă putând fi înregistrată în întregime, gen recensământ. 

Obiectivul cunoaşterii fiind populaţia, rezultatele observate pe un eşantion 
sunt generalizate la nivelul populaţiei prin estimare statistică. Incertitudinea 
inerentă unei astfel de cunoaşteri se exprimă utilizând teoria probabilităților. 

Primele contribuţii la teoria estimatiei au fost aduse de A.M. Legendre 
(1805), C.F. Gauss (1809), P.S. Laplace, K. Pearson, R.A. Fisher ( 
statistică a estimafiei, 1925). 


> 
Teoria 


7.1 Probleme generale 


Problemele generale ale unei estimări statistice vizează: 
- precizarea noțiunilor folosite; 

- definirea distribuţiei de selecţie a estimatorilor; 

- definirea teoremelor ce stau la baza estimării. 


7.1.1 Noţiuni şi termeni pereche 


Estimare. Prin estimare se înțelege un procedeu prin care se generalizează 
rezultatele observate pe un eşantion, la nivelul populaţiei din care este extras, 
adică se află valoarea unui parametru al unei populaţii pe baza datelor 
inregistrate la nivelul unui eşantion extras din aceasta. 

Estimarea se poate efectua fie sub formă de estimare punctuală, fie sub 
formă de estimare prin interval de încredere. 

Estimarea punctuală presupune estimarea unei valori posibile a estimatorului 
parametrului căutat, adică o estimatie calculată pe baza datelor înregistrate la 
nivelul unui eşantion. 

Estimarea prin interval de încredere presupune aflarea limitelor de încredere 
ale unui interval care acoperă valoarea adevărată a unui parametru al 
populației. Estimarea prin interval de încredere tine seama de fluctuațiile 
distribuţiei de selecţie a estimatorului parametrului considerat. 

În estimarea statistică se folosesc o serie de termeni pereche: parametri, 
estimatori, estimatii (vezi tabelul 7.1). 








Estimarea parametrilor unei populații 





Parametri. În procesul estimării, un parametru reprezintă o mărime fixă, 
reală, dar necunoscută a unei populaţii. Parametrul este „valoarea reală” care 
trebuie estimată. Parametrul se notează printr-o literă din alfabetul grec, în 
general prin 8, şi se determină pe baza unei funcţii (medie, variantá etc.) a 
caracteristicii X observate la nivelul unei populatii. 


Estimatori (Statistici). Un estimator este o statistică (o variabilă aleatorie) ce 
urmeazá o lege de probabilitate care depinde, in general, de un parametru 
necunoscut si este utilizat pentru a estima un parametru al populatiei. 

Estimatorul se notează cu aceeaşi literă folosită pentru un parametru, 
adăugând o pălărie (accent circumflex) deasupra, sau cu litere din alfabetul latin. 

Pentru un parametru 8, un estimator al său se notează cu Ó $i reprezintă o 
funcție de n variabile aleatorie de selectie( X ,, X 5,...,. X, ) independente si 
identic distribuite: 

ü-—f(X,,X;,..,X, ). 

Estimalii (valori tipice de sondaj). O estimatie reprezintă o valoare 8, a unui 
estimator Ê al parametrului 8 Este calculată pe baza unui eşantion de n 
valori (x,, x,,..., x, ), prelevat dintr-o populaţie N, adică este o valoare tipică de 
sondaj de forma: 


Tabelul 7.1 Termeni folosiţi în procesul de estimare statistică 
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Observație! Termenii pereche (parametri — estimatii sau valori tipice de 
sondaj) intálniti in procesul de estimare au acelasi continut metodologic, dar se 
deosebesc din punctul de vedere al informatiilor folosite. Astfel, media ȘI 
varianta, valori tipice (valori caracteristice) pentru cele două categorii de 
colectivități (populaţia şi eşantionul), sunt numite diferit - parametri pentru 
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populaţie şi valori tipice de sondaj pentru eşantion — datorită caracterului lor 
diferit pe care îl au într-o cercetare prin sondaj. Atât parametrii, cât şi valorile 
tipice de sondaj sunt valori reale, calculate pe baza datelor observate la nivelul 
unei populaţii, respectiv la nivelul unui eşantion. De regulă, parametrii unei 
populații nu pot fi calculati direct, nefiind posibilă observarea întregii populaţii. 
Parametrii sunt estimati pe baza valorilor tipice de sondaj, rezultate din 
prelucrarea datelor unui eşantion. 


7.1.2 Distributii de selecție 


O distribuţie de selecţie este distribuţia unei statistici, 0. Dacă variabila aleatorie 
este media de selecție, atunci ne aflăm în cazul distribuţiei mediei de selecție, 
iar dacă variabila este proporţia de selecţie, respectiv varianta de selecție, este 
cazul distribuţiei proportiei de selecție, respectiv al variantei de selecție. 
Dintr-o populaţie de volum N, de parametri 4 (media populaţiei) şi o? 


(varianta sa), se pot extrage k eşantioane de volum n. 


Astfel: 
- în cazul eşantionării cu revenire (repetată): 
ENT. 
x Fi w- 2X $ Pacte aad à , - ~ 
- în cazul eșantionării aleatorie fără revenire (nerepetată), k este dat 
de numărul combinărilor de N elemente ale populației luate câte n: 
N! 


(N-n)!n! 
Fiecare eşantion are media (x;), proporția ( f.) si varianta sa (s?). Pe 


ansamblul celor k esantioane se obțin variabilele: 


JEU CX yXosssss: Y, Je 
PCI nd f.) 
G^ 205] dion dis 


unde: 
Li — media de selecţie; 


= nDEÓàOF rtia de seleetie: 
p —proportia de selecţie, 


o“ —varianta de selecție. 


Valorile posibile ale fiecărei variabile se abat mai mult sau mai puţin de la 


valoarea parametrului corespunzător colectivitátii generale (vezi figura 7.1). 
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Figura 7.1 Distribuţia unei populaţii, distribuții pentru k egantioane, distribuţia de 


selecție a mediei 


Media Z , numită medie de selecţie, proporţia P , numită proporţie de selecție, 
şi varianta G^ , numită variantă de selecţie, apar ca variabile, cu niveluri diferite 
pentru fiecare eşantion (vezi şi figura 7.1). 

Fiecărui nivel al mediei de selecţie, al proportiei de selectie, al variantei de 
selecție îi corespunde o anumită frecvență de apariție. Frecvența de aparitie a 
mediei unui eşantion, de exemplu, poate fi interpretată ca probabilitate de apariţie 
a acesteia. În cazul extragerii tuturor eşantioanelor posibile, suma tuturor 
probabilităților de apariție a mediei este egală cu 7. 

Pentru fiecare variabilă, se determină un nivel mediu M(Ê) ŞI o variantá 


V( 0), notată şi o 


7.2 Proprietăţi ale estimatorilor 


Principalele proprietáti ale estimatorilor sunt: nedeplasare, convergență si 


eficienţă. 
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7.2.1 Nedeplasare 


Un estimator este nedeplasat, adică fără bias, dacă speranța matematică a 
variabilei aleatorii O este egală cu valoarea parametrului 0 din populaţie (vezi 


figura 7.2): M( 8)-8. 


| | a) / l \ DJ 


/ N 
N N 
a CNN i Pd í Ne 
W- Bias > 


0 = vula) 8 MIA) 


Figura 7.2 Estimator nedeplasat (a) şi estimator deplasat (b) 


7.2.2 Convergentá à 


Un estimator este convergent (consistent) dacă varianta sa V( Ô) tinde spre zero 
(V(0 ) — 0), când volumul eşantionului tinde spre volumul populaţiei, adică: 


lim P(8-0|«£)- 1. 
n N 


Varianta V(0) măsoară incertitudinea care planeazá asupra calității 


estimatorului. 
Un estimator este corect dacă îndeplineşte condiţiile: 


M(0) — 8| EA 
> atunci când n>N. 


V(Ó ) — 0 | 


Un estimator este absolut corect dacă îndeplineşte următoarele două condiții: 


M(0)= 0 (estimator nedeplasat); 





V(0) — 0,dacá n— N (estimator convergent). 
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7.2.3 Eficienţă 


Un estimator este considerat eficient dacă este convergent si are varianta cea 
mai mică posibil față de varianta oricărui alt estimator calculat pentru acelaşi 


eşantion de volum n (vezi figura 7.3 b): V(0) — minim. 
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Figura 7.3 Estimator convergent (a) şi estimator eficient (b) 


Observatie! În figura 7.3a se observă că varianta estimatorului tinde să se 
reducă o dată cu mărirea volumului eşantionului. Analog, figura 7.3b prezintă 
distribuția comparativă a doi estimatori cu grade diferite de eficiență (curba A 
arată distribuţia mediei de selecţie, iar curba B arată distribuţia medianei de 
selecţie). 


7.3 Estimatorul i al mediei u 
Media 4 a populaţiei se poate estima punctual prin media (x ) obţinută la 


nivelul unui eşantion. Media x este o valoare a estimatorului Å, calculată pe 


baza datelor de la nivelul unui eşantion. 


7.3.1 Proprietăţile estimatorului Z 


Estimatorul mediei urmează legea normală. Este un estimator nedeplasat, 


convergent şi eficient. 
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Nedeplasare. Dacă parametrul esteu, media populaţiei, si %ģ este 
estimatorul său, atunci se poate arăta cá 77 este un estimator nedeplasat: 
M(À&) 4; 
, Ta. 3 Polus de n ] 
MCOUJ=MI =X; |= - M| MP d. |= —», M(X jpam Yu-7—n:u-7u 
(A isl ) d Vil ] his n i=] n 


Convergenţă. Varianta mediei de selecție tinde spre zero, V(/i) — 0, când 
volumul eşantionului tinde către volumul populaţiei (n — N): 
SI cam A EO quA ART ool 
— pentru o populaţie infinită, V(f)) — 0, adică V(4)= o; 7» — —0; 
i n 
c! N-n 
n N 


— 0. 





— pentru o populație finită, V(4)— 0 , adică V(4)= o; = 


7.3.2 Distribuţia mediei de selecție. Teorema limită centrală 


Distribuţia mediei de selecție se fundamentează pe teorema limită centrală 
(TLC), conform căreia suma unui număr suficient de mare de variabile (X) 
aleatorii independente şi identic distribuite urmează aproximativ o lege normală. 

Distribuţia mediei de selecție tinde spre o distribuţie normală: 

— când volumul eşantionului, n, tinde spre infinit, indiferent de legea de 
distribuție urmată de variabila aleatorii de distribuţie a populaţiei de 
origine (vezi figura 7.4).; 

- când volumul esantionului este oricât de mic, dacă variabila aleatorie de 

distribuţie a populației urmează o distribuţie aproximativ normală. 
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Populatia | Populatia II 
A Á A 
| E 
>X Ly C» X 
A A ^ 
\> [i * ü 
(n=2) | 
A A A 
S> i > f| 
(n=5) 
A A A 
» [i i d! 
(nz 30l 


Figura 7.4 Tendinta spre normalitate a distributiei mediei de selecție în raport cu 
mărirea volumului egantionului (TLC) 


Forma distribuţiei mediei de selecţie ia alura unei curbe normale. abaterile 


Populatia Ill 





>X 


într-un sens sau altul față de media lor compensându-se reciproc. 


In figura 7.5, c; 


parametrului z. 


reprezintá abaterea standard a estimatorului 





















184 Analiza statistică cu SPSS sub Windows 








Figura 7.5 Distribuţia mediei de selecţie 


Distribuţia mediei de selecţie este caracterizată prin următoarele: 
|. fj urmează întotdeauna o lege normală sau aproximativ normală, de medie 


u şi variantá c respectiv: 42 N( 1,05 ); 


2. media distributiei mediei de selecție este egală cu media 
populației: M(4) = 4; 
3. varianta mediei de selecție (c7) este egală cu varianta populației (o?) 
împărțită la volumul egantionului (n) şi se calculează după relațiile: 
pentru o populaţie infinită (cazul sondajului aleatoriu repetat): 
3. 
gi =— 
H 
n 
pentru o populatie finitá (cazul sondajului aleatoriu nerepetat), 
a 0c N-n 
os RENE T UE 
n N 
unde: 


c^ — varianta populației; 


n —volumul esantionului; 
N — volumul populaţiei. 
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Varianta mediei de selecţie stă la baza calculului erorii medii de 
reprezentativitate, care se măsoară în unități de abateri standard, adică prin 
abaterea medie pătratică a mediei de selecție față de media ei (o, ). 


Estimatorul variantei mediei de selecție ( 57,) este definit de relaţiile: 


2 5 


x2. 0 dus E c*^N-n 
G = —,respectiv o 


n N 





n H 
unde ó ^ reprezintă un estimator al varianfei de selecție corectată (estimator 
nedeplasat al variantei populaţiei). 


O estimatie nedeplasată a varianfei mediei de selecție se determină prin relația: 


5 


n 
t9 by (X; - X x 
S j=] 
sé =—, unde sg^-^ 
n n-1 


Observaţie! Din relaţiile prezentate rezultă cá mărimea variantei mediei de 
selecţie este direct proporțională cu varianţa colectivităţii generale şi invers 
proporțională cu volumul eşantionului. 


Dacă dorim să márim sau să micşorăm varianta mediei de selecție, va trebui 
să micsorám sau să mărim volumul eşantionului (7) cu o constantă K, astfel: 


2 b o2 

















a A » > O . r O 
— pentru mărire: K g7, = —— ; respectiv Ko, — I—— ; 

ic J i | d 

n —n 
K K" 

E a . nE O ù ta UE 4 c EE | O 

— pentru micgorare: — = —— , respectiv — = .|—7- - 

K Kn K NEn 


7.4 Estimatorul pal proportiei p 


7.4.1 Definitie 


Estimatorul proportiei p se notează cu p . Este o variabilă aleatorie care urmează 


1 


o lege Bernoulli de medie p= e unde N, reprezintă indivizii din categoria 
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A, iar N — intreaga populatie. O valoare posibilá a estimatorului p este 
proporția (f) calculată la nivelul unui eşantion. Reprezintă o estimație definită 
prin: 


unde: 
n, este numărul unităților din categoria A din eşantion; 


n este volumul eşantionului. 


7.4.2 Proprietăți ale estimatorului p 


Estimatorul proportiei p este un estimator nedeplasat si convergent al proportiei 


p. 
Se demonstreazá cà: 





|.  M(p) p , indiferent dacă selecţia este fără revenire (nerepetată) sau nu; 
- > | p(l-p) " ; WO NS 
2 V(p) = 4 I : , dacă populaţia este infinită, à 


n 


M 2 p(l-p) N-n 
Vip) —oz = . 
: P n N -1 





, dacă populaţia este finită şi n — N. 


Varianta proportiei de selecţie (o; ) stă la baza calculului erorii medii de 
reprezentativitate a proportiei (o. ). 


Estimatorul variantei proportiei de selectie 6; este dat de relatiile: 


-2 D(I — B) 4 UT Uh "T ; 
057 pe P : , în cazul populației infinite sau a selecţiei repetate, respectiv, 
N= 


-2 D(l-p) N -r 
R n-1 N 





bj o e 
, in cazul selectiei nerepetate. 
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7.5 Estimatorul ô’ al variantei o° 


7.5.1 Estimarea punctuală a variantei c^ 


Estimarea punctuală a variantei c^ presupune calculul unei estimatii s’ pe baza 
datelor unui eşantion prelevat din populaţie. 
Dacă parametrul este varianta populaţiei, o”, atunci 6^ este estimatorul său 
A 1 n 
şi este definit prin relația: 6^ - V (X; - à)*. 
nz 


i=] 
1 


O estimatie calculată la nivelul unui eşantion de volum n se poate afla după 


UNA i - E 
relația: $2 - — V. AX. 


n jzl 
^ Estimatorul O” este un estimator deplasat. Media estimatorului O” este 
definită de relatia: 
22 n-l 3 
Mg ja 
n 


Se observă cá media estimatorului o“ este diferită de o“, ceea ce semnifică 
faptul cá O” este un estimator deplasat. 
; : -2 n-l > 3 o“ 
Bias-ul estimatorului este: B(6^) = g-ot =- 
n n 








7.5.2 Estimatorul variantei distribuției de selecție a diferenței 
dintre două medii si a diferenței dintre două proportii 


Estimatorul dintre 2 medii 
a) Când variantele a două populații comparate sunt diferite între ele, o; +03, 
varianta de selecție a diferentei dintre două medii se calculează după relația: 
2 ) 9; O5 
i-p Oi t0, —-—-t—-. 
et s n, n; 
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Estimatorul sáu este: 

ki» ST GT 

O "m A = a S 
E dia n; n, 





b) Când variantele celor două populații comparate sunt egale între ele 


(of =0; =ø"), estimatorul variantei de selecţie a diferenţei dintre două medii 





este 
rá N 
2 42| 4 ] 
O; ny MEC. eni iem 
: n, n5) 
unde: 
2 ój(nj -1)* 62(n; - I) 
Gt on 2 7 


d n; +n —2 


Estimatia variantei de selecţie a diferenței dintre două medii se calculează 
dupá relatia: 


s Jl i 
Sr a 94. = 


N 


23 \ 


T A 
n, ) 





unde s? reprezintă varianta ponderată obținută pe baza estimatiilor variantelor 


calculate la nivelul esantioanelor n, n, şi se află după relația: 





UR sin SAF s7 (nz =f) 


Sw ^ 
n; t n,—2 


Estimatorul variantei de selecție a diferenței dintre două proporții 


Varianta de selecţie a diferenței dintre două proporții se calculează în aceeaşi 
manieră ca varianta diferenţei dintre două medii, după relația: 
) : 2 .Pj1-pp P3 — p2) 


Oz zz —g to: 
D 05 = 
PrP? Pı P2 nj ny 





$ 


unde p, şi p, sunt proporţiile populațiilor comparate. 


Estimatorul corespunzător este: 


00 wb [2$ a Bit DB Bal-Pp) 
Mri Sf, 0p, j 





nj n» 
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7.6 Estimarea prin interval de încredere 


7.6.1 Situaţii 


Estimarea parametrului 8 se face pe baza estimatorului 9. Deoarece estimatorul 
este o variabilă aleatorie, este necesară cunoașterea legii de distribuţie a acestuia. 
În funcţie de cunoaşterea sau necunoaşterea legii de distribuţie a estimatorului, 
în procesul de estimare prin interval de încredere se întâlnesc trei situatii, definite 
în funcţie de volumul eşantionului şi de cunoaşterea sau nu a legii de distribuție a 
populației. 
|. Legea populaţiei este cunoscută. În acest caz, în studiul comportamentului 
estimatorului se consideră legea populaţiei. 


2. Legea populaţiei este cunoscută şi eşantionul este de volum mare. Când 
şantionul este de volum mare, se utilizează comportamentul asimptotic, 
legea estimatorului tinde spre legea normală. 

3. Legea populației nu este cunoscută. Comportamentul estimatorului este a 


priori necunoscut. În acest caz, se recurge la teoreme limită pentru a obține 
o lege asimptotică. 

Estimarea prin interval de încredere constă în căutarea unui interval în care 
probabil se situează valoarea unui parametru necunoscut din populația totală. 
Valoarea estimată a parametrului este influențată de fluctuațiile de selecție, 
valoarea sa depinzând de valorile statistice ale eşantionului extras. În estimarea 
prin interval de încredere, se pleacă de la o estimafie punctuală obţinută prin 
observarea unui eşantion şi de la definirea limitelor de încredere ale intervalului 
care acoperă cu o anumită probabilitate valoarea adevărată, dar necunoscută a 
unui parametru, pentru un coeficient de încredere dat. 


7.6.2 Intervalul de încredere (I.C.) 


A defini un interval de încredere înseamnă a căuta limitele de încredere, 
Li=0-45 $8 L— 0+ 4;, care acoperă valoarea parametrului 0, pentru un 
coeficient de încredere: P(L; «0 € L,) - 1-a, adică: 
I.C.=[80-A,;0+A,], 
Ü 9 
unde: 


LE; 


; şi L,— limitele de încredere: inferioară, respectiv superioară; 
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(1— a ) — probabilitatea cu care se garantează că intervalul acoperă valoarea 
adevărată a parametrului 9, în cazul unei probleme de estimatie, respectiv 
valoarea unei statistici, în cazul unei probleme de distribuţie de selecţie; 

a —riscul, respectiv probabilitatea ca intervalul să nu conţină valoarea căutată 

Calculul limitelor intervalului de încredere porneşte de la estimarea valorii 
erorii limită, A., pe baza distribuţiei de selecţie a estimatorului 6 al 
parametrului 0 . Determinarea erorii limită este necesară pentru realizarea unei 
estimări prin interval de încredere 


7.6.3 Eroarea limită 


Eroarea limită se determină pentru un estimator (8) al unui parametru (8), 
ținându-se seama, pe de o parte, de legea de distribuţie a acestuia, iar pe de altă 
parte, de mărimea erorii medii de selecție corespunzătoare tipului de sondaj 
practicat. Eroarea limită se calculează ca produs între coeficientul de încredere 
al unei legi de distribuţie a unui estimator şi eroarea medie de reprezentativitate 
a acestuia. 
Legea de distribuţie specifică distribuţiei de selecţie a mediei este, conform 
TLC, o lege normală. 4 
Eroarea limită a mediei de selecţie se calculează după relaţiile: 
Aj > Z:0,, în cazul in care se cunoaşte parametrul o , respectiv 


Aa > t-o, în cazul în care se estimează parametrul o. 


Mărimea erorii medii o, se calculează diferențiat, aşa cum s-a prezentat in 
paragrafele anterioare, în funcție de estimatorul considerat şi de tipul de sondaj 
practicat. 


7.7 Estimarea mediei prin interval de încredere 


Dacă parametrul căutat este 4; — media unei populaţii, iar & — media de 
EN construirea I.C. pleacă de la o ipoteză asupra distribuţiei mediilor de 
selecție, deci şi a abaterilor medii pátratice a acestora față de media populaţiei, 
respectiv faţă de media lor. 


a 
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Estimarea mediei prin I.C., în cazul în care se cunoaşte legea populaţiei si 
aceasta este o lege normală, N(4, o°), poate prezenta două situații: 
când se cunoaşte varianta; 
când nu se cunoaşte varianta. 


7.7.1 Construirea intervalului de încredere când se cunoaşte 
varianta unei populații 


In acest caz, legea estimatorului şi este o lege normală: 


5 


; "TE uu ic . -HU m 
A — N( ui, — ), respectiv, sub formă redusă, ——— ~ N(0,1). 
n o/n 


Construirea intervalului de incredere se bazeazá pe variabila normalá centratá 


redusă Z: 


Această variabilă permite să se construiască un interval de încredere: 
Li — 
of —z c ; c rU] —— 
P( 725,5 $ — —$€2,/5,)-21-a, 
O/A 
unde: 
Za/> Este o valoare a variabilei normale centrate reduse Z, 


a este un nivel al probabilității, cuprins între zero si unu. 


La nivelul unui eşantion ( Z ia valoarea x ), intervalul este: 


[ox p O 
E cc PSP ma 
NH Nn 


cu o încredere ( / — a ). Valorile sunt simetrice. 
Construirea intervalului de încredere al mediei, când o este cunoscută, este 


prezentată în figura 7.6. 
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[ 
Figura 7.6 Intervalul de încredere pentru medie, cu O cunoscută 
Calculul şi interpretarea I.C. se face în funcție de valorile luate de variabila Z. 
Astfel, 
— pentru (Z = 1), LC. este: 
(x-I:o;)«u-&«(x*l:0,1); < 
— pentru (Z = 2), I.C. este: 


(x-2:o0;)«u«(x*2-0;). 


Observaţie! In condiţiile unei erori medii de reprezentativitate date (o; ), cu 
un Z = 1, putem spera ca valoarea estimată a mediei populaţiei să coincidá cu 
valoarea adevărată a acesteia, in medie, în 68 din 700 de ocazii; pentru Z = 2, ar 
exista, în medie, 95 de şanse din 100 ca acest eveniment să se întâmple ş.a.m.d. 


7.7.2 Construirea intervalului de încredere când nu se 
cunoaşte varianta unei populații 


Deoarece varianta (6) nu este cunoscută, ea se înlocuieşte cu o estimatie a sa, s^, 
abaterea medie pátraticá corectatá a egantionului observat. 
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S-a demonstrat că: 


pie SE INT BN 


G'/Nn 
unde: 


t(n — 1) este legea de distribuţie Student de (n — 1) grade de libertate. 


Pentru P(t > t,,5) - a / 2, la nivelul unui eşantion, vom avea: 
XM S a i 
t — —— —— , iar intervalul va fi: 


S^ Jn 





„cu un grad de încredere ( /— a ) . 


7.8 Estimarea parametrilor folosind SPSS 


Calculul intervalului de încredere pentru o medie sau pentru o proporţie 

presupune efectuarea urmátoarelor operatii: 

- calculul valorii tipice de sondaj (media eşantionului, de exemplu); 

- determinarea variabilitátii estimatorului considerat (varianta mediei de 
selectie, de exemplu); 

- alegerea nivelului de încredere (90%, 9596, 99%); 

— calculul limitelor intervalului de încredere. 


7.8.1 Estimarea mediei 


SPSS calculează valoarea tipică de sondaj, în cazul nostru media eşantionului 
(x), scorul Z corespunzător şi eroarea standard a mediei (c), precum şi 
limita inferioară şi limita superioară ale intervalului de încredere. 
Paşii de urmat sunt (vezi figura 7.7): 
-  selectăm succesiv: meniul Analyze — comanda Descriptive Statistics — 
opțiunea Explore; 
- în fereastra Explore, selectám variabila dorită (de exemplu, vârsta) si o 
mutăm în zona Dependent List; 
- activám butonul de comandă Statistics care deschide fereastra Explore: 
Statistics, unde bifám caseta de validare Descriptives si precizám in 
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caseta Confidence Interval for Mean nivelul de incredere dorit (de 


obicei, 90%, 95% sau 99%). Valoarea implicită este 95%; 


- butonul de comandă Continue determină revenirea în fereastra Explore, 
din care activăm OK pentru a comanda afişarea rezultatelor în fereastra 














5 ao adf. A . RS 
Output (vezi figura 7.8). 
$» mod placut de a cala ^ Dependent List: [6 5 
| |€ mod placut de a cala ® varsta persoanei [varsi 3 
€ mod placut de a cala "aste - 
t x | 4 
€ protejeaza mediul [e MN 4 
$ protejeaza mediul m Reset 5 
1 protejeaza mediul at Factor List: 
€» sexul persoanei [se Cancel 
Ò statutul socio-profes | | 
- venitul lunar al persi — 
! $ judetul in care locuie 
J € rpvarsta v Descriptives 
& Igvarsta Confidence Interva an; 95 96 
| EJ 
h Display M-estimators 
| Outliers 
Îi * Both Statistics Plots » 
A Percentiles 
| 
ia ! | Continue Cancel Help 
I9 1 3 1 INS 
Figura 7.7 Ferestrele Explore 5i Explore: Statistics 
Explore 


Case Processing Summary 








varsta persoanei 


varsta persoanei 


Confidence 





Interval for Mean Upp 


5% Trimmed Mean 


» Median 


Variance 


Std. Deviation 


Minimum 
Maximum 


Range 





ma 


interquartile Range 





Media 


Eroarea 


standard 





Lower Bound 


er Bound 


Limita 





inferioară 


Limita 


superioară 











Figura 7.8 Rezultate SPSS pentru variabila ,, Vârsta” din tapestry.sav. 
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Putem spune cu o încredere de 95% că vârsta medie a populației este între 
36,55 şi 39,52 ani. 


Observaţie! Dacă se modifică nivelul de încredere, atunci se constată că se 
schimbă şi limitele intervalului de încredere (vezi figura 7.9). 











Statistic Std. Error | 
varsta persoanei 


Lower Bound 
Upper Bound 


varsta persoanei Mean 
N 


X 95% C Lower Bound 


Upper Bound 


wer Bound 
Interval for Mear Upper Bound 








Figura 7.9 /ntervale de încredere pentru variabila ,, Vârsta” la 90%, 95% si 9995, 
obținute prin demersul: meniul Analyze — comanda Descriptive Statistics — 
optiunea Explore 


Aceleasi rezultate se obtin urmánd demersul: meniul Analyze — comanda 
Compare Means — optiunea One-Sample T Test, după care se parcurg pasii: 
- în fereastra de dialog One-Sample T Test (vezi figura 7.10), selectám 
variabila vársta si o mutám in zona Test Variable(s); 
- acceptăm valoarea implicită 0 în caseta Test Value: 
- activám butonul de comandă OK şi SPSS calculează intervalul de 
incredere pentru 95% (vezi figura 7.11) 
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> mod placut de a cala ^ 


b protejeaza mediul [e 
ò protejeaza mediul m 
b protejeaza mediul at 
> sexul persoanei [se» 
è statutul socio-profes 
venitul lunar al perst 
judetul in care locuie 
$ rpvarsta 
| 3» Igvarsta 


Test Value: |0 





"Paste 


Reset 
Cancel 


Help 


Options... 











Figura 7.10 Fereastra de dialog One-Sample T Test 





+ T-Test 


One-Sample Statistics 


Std. Error 


Mean 




















Figura 7.11 Intervalul de încredere pentru media variabilei „ Vârsta”, calculat prin 
demersul: meniul Analyze — comanda Compare Means — optiunea One-Sample T 


7.8.2 Estimarea proportiei 


Test 


În SPSS nu este calculat direct intervalul de încredere pentru o proporție. 
Estimarea I.C. pentru o proporţie folosind SPSS presupune efectuarea unui set 


de operaţii. 
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l. Calculul estimatiei proportiei unei categorii la nivelul eşantionul observat, 


oon E TC ; à 
f =—, unde n, este numărul unităților din eşantion din categoria A, iar n 
n 
volumul eşantionului. Acest calcul presupune demersul: meniul Analyze — 


comanda Descriptive Statistics — opţiunea Freguencies. În continuare se 
parcurg următorii paşi: 
în fereastra dialog Freguencies (vezi figura 7.12), selectăm variabila 
de interes (în exemplu nostru, variabila ,Sexul persoanei”) şi o 
mutăm în zona Variable. Cerem tabelul de frecvențe, prin bifare în 
caseta de validare Display frequency tables; 
- prin butonul OK, se comandă obţinerea output-ului. 
2. Se află valoarea variabilei Z pentru nivelul de încredere considerat. De 
regulă, este folosit un nivel de încredere de 95%, căruia îi corespunde un 
Z = 1,96. 
3. Se. ct 





ază eroarea standard (eroarea medie de selecție) Sp după relaţia: 
= S PIE OR a Š 
$, =—=, unde s= JJ (1— f) este abaterea (deviația) standard, iar n este 
} l ; ; 
yn 


volumul eşantionului. 


4. Se calculează limitele intervalului, folosind formula: f + 96 5, 


j 
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Figura 7.12 Demersul pentru obtinerea tabelului de frecvente 
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> Frequencies 


Statistics 





sexul persoanei 





Cumulative 
Frequency Percent Valid Percent 
Valid masculin 


feminin 
Total 











Figura 7.13 Tabelul de frecvențe pentru variabila „Sexul persoanei ", din 


tapestry.sav 


Exemplu. Dorim sá estimám prin interval de incredere proportia bárbatilor 
în populaţia pelerinilor, folosind eşantionul prezentat in tapestry.sav. 


Calculul proportiei 
Urmând demersul prezentat mai sus, aflăm o proporție de 42,5% (vezi output-ul 


din figura 7.13) pentru persoanele de sex masculin. 


Calculul erorii S; 





- cj Dă 10,425( 1 -— 0,425) 
Pentru f = 42,5%, n = 400, aflăm S, = 4| = 0.0247: 
Y 400 





Calculul limitelor I.C. 
Considerând un scor z = 1,96, obţinem: 
L; = f — 196.8, = 0.425— 1,96 -0,0247 = 0,3765, 


L, = 4 +196- Sp = 0.425 + 1,96 -0,0247 = 0,4895 . 











Estimarea parametrilor unei populații 199 





Interpretare. Ne putem aştepta, cu o încredere de 95%, ca procentul 
populației de sex masculin în totalul pelerinilor la Iaşi, în 2002, să fie cuprins 
între 37,7% şi 48,9%. S-ar putea spune că, dacă s-ar repeta studiul de 100 de 
ori (adică s-ar înregistra 100 de eşantioane, independente şi identic observate), 
datele obținute pentru 95 de eşantioane ar da acelaşi interval de încredere, 
numai 5 din cele 100 de eşantioane fiind susceptibile să dea valori în afara 
limitelor I.C. calculat. 








CAPITOLUL 8 





TESTAREA IPOTEZELOR STATISTICE 











Demersul testării unei ipoteze statistice 
Teste parametrice în SPSS asupra mediilor şi proporţiilor 


Teste neparametrice în SPSS 
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in functie de anumite reguli de 
decizie, se poate respinge sau nu o ipotezá formulatà asupra unui parametru sau 
asupra unei distributii. 


Testarea statisticá este un procedeu prin care, 


8.1 Demersul testárii unei ipoteze statistice 


Demersul testárii unei ipoteze presupune parcurgerea unor etape si rezolvarea 

problemelor pe care le implică, şi anume: 

|l. Se formulează ipotezele, în funcţie de problema pusă; 

2. Se alege un test statistic în funcţie de distribuția de selecție a statisticii 
considerate. Se alege un estimator 0 al parametrului 8 de testat: 

3. Se alege un prag de semnificaţie a pentru test; i 

4. Se stabilesc regulile de decizie, definind regiunile de ,acceptare" si de 
„respingere” a ipotezei Ho ; 

5. Se calculează valoarea statisticii test, folosind datele înregistrate prin sondaj; 

6. Se compară valoarea calculată a statisticii test cu valoarea teoretică: 

Se ia decizia de a nu respinge sau de a respinge ipoteza admisă. 


8.1.1 Ipoteze statistice 


O ipoteză statistică este o presupunere cu privire la un xirametru al unei 





distribuții date sau cu privire ia legea de probabilitate a populației studiate. 


Exemplu: ipoteza de egalitate a mediilor pentru a verifica dacă sunt diferenţe 
semnificative între populaţiile din care s-au extras eşantioanele observate 
In procesul de testare statistică, se formulează ipoteza nulă şi ipoteza 


alternativă. 


Ipoteza nulă (ipoteza de nul). Ipoteza nulă, ipoteza pe care dorim să o testăm, 
este notată H,. Prin ipoteza nulă H, se admite, în principal, cá nu există nici o 
diferență între valorile comparate. Ipoteza nulă H, este ipoteza pe care, de 


r 


fapt, vrem să o discredităm. 


Ipoteza alternativă. Ipoteza alternativă, ipoteza pe care dorim să o testám în 
opoziție cu ipoteza nulă, se notează cu H,. Ipoteza alternativă este cea care va 
fi acceptată dacă, prin regula de decizie, se va respinge ipoteza nulă [poteza 


H , este cea pe care, de fapt, vrem să o dovedim ca fiind adevărată. 
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Ipotezele asupra parametrului iau una din următoarele trei forme: 
H, :0 - 0, H,: 0-206, H, : 0 — 0, 
(1) mu:0s8, (2 H;:90«0, | 


0 


Hi, 0 > Oo 


UJ 
— 


Prima formă a ipotezei alternative presupune un fest bilateral, iar 
următoarele două un test unilateral. 
Sunt considerate teste unilaterale si testele de forma: 
Ho: 0 2 0, Ho: 0 S0, 
(2) H,:0«0, (3) H,:0»56, 


Observatie! Egalitatea apare intotdeauna in ipoteza nulá. Ipoteza alternativà 
se alege in functie de ce vrem sá probăm: 0*0,,0«0,, 0»6,. 


8.1.2 Erori de testare 


Prin definiţie, eroarea este o diferenţă între o valoare adevărată şi o valoare 
observată. În cazul testării unei ipoteze, se pot produce erori de acceptare sau 
de respingere pe nedrept a unei ipoteze, numite erori de primă speță si de a 
doua speță sau erori de tip I şi erori de tip LE. 

Distributiile erorilor sunt distributii de probabilitate; fiecárui tip de eroare i 
se asociazá o probabilitate de producere. 


Eroarea de tip I. Eroarea de tip I comisă în testarea ipotezelor constă în 
decizia de a respinge ipoteza nulă H, când în realitate aceasta este adevărată. 
Probabilitatea asociată erorii de tip I este notată cu a şi este numită prag de 
semnificaţie sau risc acceptat în luarea deciziei că H este falsă, a = P 
(respinge H} când H, este adevărată). În practică, a este cunoscut sub 


denumirea de risc al vânzătorului. 


Eroarea de tip II. Eroarea de tip II este eroarea comisă în testarea ipotezelor 
prin luarea deciziei de a accepta ipoteza nulă H, atunci când aceasta este 


falsă. Probabilitatea asociată erorii de tip II este notată cu / şi reprezintă riscul 





l. Introducerea distinctiei între eroarea de tip I şi eroarea de tip Il este datorată lui J. Neyman ŞI 
t piş ; ; 
E.S. Pearson (1938). 
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de a decide cá H} este adevărată când H, este falsă, 2 = P (acceptă H, când 
Hy este falsă). Riscul 4 este cunoscut sub denumirea de risc al 
cumpărătorului. 


Tabelul 8.1 Tipuri de erori şi probabilitățile asociate acestora în testarea 


ipotezelor 





| Decizie | Suma 
Hy 





H, 


Realitate TEN 
probabilităților 








| E iza | 
Hy adevărată | Decizie bună (1 — a) |Eroarea detipl(a) |(1-a)+a = 








H, adevărată | Eroarea de tip H (2) 





Decizie bună (/ — £) | B*(-p)-l1 








8.1.3 Regiunea de respingere si regiunea de acceptare a unei 
ipoteze 


Regiunea de respingere. Regiunea de respingere este intervalul dintr-o 
distributie de probabilitate a unei statistici considerate in care se respinge 
ipoteza nulă /7,, ipoteza H; fiind adevărată. Rezultă că o estimatie calculată a 
estimatorului 6 al parametrului 0 trebuie să fie semnificativ diferită, À 
inferioară sau superioară valoarii ipotetice 6, . 
Există deci un prag critic de la care o estimatie tinde să confirme ipoteza Hj 
şi să respingă ipoteza H}. Pragul critic este definit plecând de la eroarea de 
testare de a respinge ipoteza H) când H, este adevărată. Acestui tip de eroare 
îi corespunde regiunea de respingere, numită şi regiune critică, pentru care se 
asociază o probabilitate a. 


Observaţie! În general, pentru a (în SPSS, valoarea Sig., nivel de 
semnificatie) se considerá o valoare cuprinsá intre 0,01 si 0,1. Complementar, 
se defineste regiunea de acceptare. 


| Interpretarea nivelului de semnificaţie in funcţie de valoarea Sig.: 

| - dacá Sig. < 0,01 — atunci statistica test este semnificativă pentru 99% ; 

| - dacă Sig. = 0,05 — atunci statistica test este semnificativă pentru 95% ; 

|- dacă Sig. < 0,1 — atunci statistica test este semnificativă pentru 90% ; 
dacă Sig. > 0,1 — atunci statistica test nu este semnificativă. 
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Regiunea de acceptare. Regiunea de acceptare a unei ipoteze, numită şi 
interval de încredere (vezi figura 8.1), este un interval în care, pe baza unui 
test, nu se respinge ipoteza H,. Regiunii de acceptare a ipotezei H, i se 
asociază o probabilitate /— æ , numită şi coeficient de incredere. 

În testarea ipotezelor, regiunea care se defineşte este regiunea de respingere 
a ipotezei H, pentru un prag de semnificație a acceptat. 


Testul bilateral. Intr-un test bilateral, în legătură cu un parametru 6, 


c 


ipotezele ce pot fi puse sunt: 
H js 0 = Oo 


Hı :0 # 0 
În testul bilateral, regiunea de respingere a ipotezei H) corespunde unui 
interval, divizat în două subintervale, delimitate la un capăt de o valoare critică, 
prag critic, iar la celălalt capăt de infinit, şi anume: 


(— o; valoarea critică inferioară] şi [valoarea critică superioară; +o ). 





Valorile critice — interioară (L;) şi superioară (L,) — sunt definite de 


relațiile: 


unde: 


4; este media distribuţiei de selecţie a unei statistici O ; 
c; este eroarea medie de selecţie a statisticii O ; 


a este pragul de semnificație al testului; fiind un test bilateral, se 


aj 


/ 


In figura 8.1.a se prezintă regiunea de acceptare şi regiunea de respingere a 


consider 


ipotezei Hy, în cazul testului bilateral. 


Testul unilateral la dreapta. Pentru un test unilateral la dreapta, ipotezele 
sunt: 
Hu: 0-0, 
Hı: 0> 0, 
Intr-un test unilateral la dreapta, regiunea de respingere a ipotezei H, este 


intervalul delimitat la stânga de valoarea critică L, = H; +2,05. 
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a [94 
$ l-a p 
Se respinge Hy L i Se acceptă Hy I $ Se respinge Hy 
>4 pa 


a) 





pla- L s 
Se acceptă Hy Se respinge Hy Se respinge Ho Se acceptă Hy 
b) C) 


Figura 8.1 Regiunea de acceptare si regiunea de respingere a ipotezei Hy 


cuprinse în intervalul [valoarea critică; oo) si este reprezentată grafic în figura 
8.].b. 


Testul unilateral la stânga. Pentru un test unilateral la stánga, ipotezele sunt: 


H,:0-60, 
Hı: 0 0, 
Intr-un test unilateral la stánga, regiunea de respingere a ipotezei H, este 


itat la dreapta de valoarea critică 1;= u-z- 05. 


g 
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Regiunea de respingere este egalá cu multimea valorilor statisticii 8 
cuprinse în intervalul (—« ; valorea critică] şi este reprezentată grafic în figura 
8.1.c; 


8.1.4 Tipuri de teste 


În funcţie de ipotezele formulate, de tipul variabilei/variabilelor considerate, de 
volumul populatiei/populatiilor şi de informaţiile disponibile asupra acestora, 
pot fi aplicate fie teste parametrice, fie teste neparametrice. 


Teste parametrice. Aplicarea testelor parametrice presupune cunoaşterea 
formei parametrice a unei distribuții a populaţiei considerate, adică a legii de 
distribuţie. Cel mai cunoscut test parametric este testul t — testul Student, 
propus de Gosset, în 1908. Acest test vizează compararea mediei unei populaţii 
(u) cu o valoare fixă (u) sau compararea mediilor a două populații care 
urmează o distribuție normală. Este folosit, de asemenea, pentru testarea valorii 
unui coeficient de regresie, precum şi a valorii coeficientului de corelaţie. Alte 


teste foarte mult folosite sunt testele F si X". 


Restrictii pentru aplicarea testelor parametrice. În procesul testării 
parametrice intervin mai multe elemente: un eşantion, o distribuţie de selecție 
şi o populaţie şi, ca urmare, anumite ipoteze cu privire la parametri, care cer ca 
toate elementele considerate să fie compatibile unele cu altele. De exemplu, în 
ANOVA se pleacă de la ipotezele de independenţă, normalitate şi 
homoscedasticitate, adică: 

Observațiile sunt independente; 


Datele sunt normal distribuite; 





rinl ` " » "Vc Q1 n T -— mamtă 
riabilele observate au aceeaşi varianţă. 


eparametrice. Testele neparametrice presupun testarea ipotezelor 





statistice fără a cere specificarea formei parametrice a distribuţiei populațiilor 


sarametrice sunt: testul Wilcoxon 


comparate Cele mai cunoscute teste ne 














(1945), folosit pentru a verifica, pe baza datelor de sondaj, dacă există diferențe 
semnificative între două populaţii; testul Mann-Whitney (1947), folosit pentru 
erificarea existenţei egalităţii între două populaţii, testul Kolmogorov- 
Smirnov (1933). care vizează testarea identității a două funcții de repartitii 
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8.2 Teste parametrice în SPSS asupra mediilor şi 
proporțiilor 


Testele asupra mediilor, respectiv a proporțiilor, sunt folosite pentru a verifica 
dacă o medie/proportie diferă semnificativ de o valoare specificată (ipotetică) 
sau pentru a compara două ori mai multe medii/proportii între ele spre a testa 
dacă există diferențe semnificative între ele (dacă eşantioanele observate 
provin din aceeaşi populaţie). 


8.2.1 Alegerea testului 


Testarea mediei cu o valoare specificată. Admitem ca parametru 4 — nivelul 
mediu al distribuţiei unei populaţii — şi un estimator al acestuia, Z/ , respectiv o 
valoare x a estimatorului Z , care estimează valoarea parametrului z . 

În testarea ipotezelor cu privire la media unei populaţii, alegerea statisticii 


test depinde de volumul eşantionului (n) extras din populaţie şi de cunoaşterea 
. . . " . . ? . pi 
sau nu a variantei distribuţiei (o^, respectiv, s^ ). 


a) In cazul egantioanelor de volum mare (n > 30), se foloseste statistica test 


Z, care urmează o distribuţie de probabilitate normală, Z ~ N(0, 1). 
— Când o este cunoscut, statistica test Z este: 


Z- X - Mo 


ol Jn 


— Când o nu este cunoscut, statistica test Z este: 


X — up 
Z= 0. 
s/n 


b) In cazul egantioanelor de volum mic (n < 30) se foloseşte statistica test f, 
definită de relaţia: 


= IZ H0 


" s/n i 
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Statistica / urmează o distribuţie de probabilitate Student cu n — 1 grade de 


libertate, t — t(n — 1). 
Testarea unei proporţii. În cazul comparárii unei proporții cu o valoare 
specificată, statistica test este: 


LB = Am. respectiv E. 
|pü- p) 
Y n 


Testarea a două medii. Admitem ca parametri p, şi H, — nivelul mediu al 








distribuţiei pentru două populaţii, respectiv două valori X $8 X, ale 
estimatorilor corespunzátori, ji, si ji, 
In cazul egantioanelor de volum mare (n > 30) se foloseste statistica test Z, 


care urmează o distribuţie de probabilitate normală, Z ~ N(0, 1). 
— Când o, şi c, sunt cunoscute, statistica test Z este: 





Pentru testarea a două proporții, statistica test este definită în mod analog 
statisticii test pentru două medii, şi anume: 
Á- 5 
|A0-4) A-Z) 
| Y t LE 
Yom n, 
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8.2.2 Testarea egalităţii unei medii cu o valoare specificată 
(One-Sample T Test şi Error bar) 


One-Sample T Test este un procedeu prin care se testează dacă media unei 
variabile este egală cu o constantă specificată (fie obținută în alt eşantion extras 
din aceeaşi populaţie, fie o valoare precizată, standard etc.) 

În SPSS, testarea egalităţii unei medii cu o valoare specificată (valoare 
ipotetică) se poate realiza şi printr-un procedeu grafic: Error Bar. 


Testarea egalităţii unei medii cu o valoare specificată, folosind One-Sample 
T Test, presupune parcurgerea următorului demers: meniul Analyze — 
comanda Compare Means — opţiunea One-Sample T Test (vezi figura 8.2). 


Exemplu. Considerând variabila „Vârsta persoanei” din Tapestry.sav, dorim 
să verificăm dacă vârsta persoanelor din eşantionul observat diferă semnificativ 
de valoarea 30 de ani. 

După selectarea opțiunii One-Sample T Test, se parcurg următorii paşi (vezi 
figura 8.3): 

-  Selectăm în fereastra One-Sample T Test variabila vârsta şi o mutăm în 

zona Test Variable(s); 

- Specificám valoarea dorită, 30, in zona de editare Test Value; 

- Activám butonul de comandă Options care deschide fereastra One- 

-Sample T Test: Options in care, in zona Confidence Interval, alegem 


gradul de încredere 95%, după care actionám butonul de comandă 


Continue pentru a reveni în fereastra Sample T Test; 
Actionám butonul OK si comandám SPSS obtinerea output-ului. 











Analyze Graphs 


| Reports 
p 


$  Descriptive Statistics 





Custom Tables 
Compare Means 


























Figura 8.2 Selectarea optiunii One-Sample T Test 5i fereastra de dialog 


corespunzătoare 
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Interpretare 

Rezultate. Output-urile, One-Sample Statistics si One-Sample T Test pentru 
variabila „Vârsta persoanei” (vezi figura 8.3) prezintă: valoarea medie observată 
egală cu 38,03 ani; valoarea specificată egală cu 30 ani; diferența dintre 
valoarea medie observată şi valoarea ipotetică de 8,03 ani. 
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Figura 8.3 Comenzi î 
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Statistica test. În exemplul luat, valoarea nivelului de semnificaţie Sig. 
(probabilitate) egală cu 0,000 este mai mică decât valoarea 0,05, considerată în 
Confidence Interval din Options, ceea ce arată că există o diferență 
semnificativă între valoarea medie observată şi cea specificată. În exemplul dat, 
deoarece valoarea Sig.< 0,01, înseamnă că valoarea estimată a statisticii test t 
este semnificativă la un nivel de încredere de 99%. Ca urmare, ipoteza nulă se 
respinge; între vârsta medie observată în eşantion şi valoarea ipotetică (30 ani) 
există diferențe semnificative E LI 

Intervalul de incredere pentru diferente dintre cele dois valori nu contine 
Zero, ceea ce arată, de asemenea, cá diferența este semnificativă. 

Dacă valoarea Sig. ar fi mare şi intervalul de încredere ar contine valoarea 
zero, atunci nu s-ar putea trage concluzia că există o diferenţă semnificativă 
între valoarea observată şi valoarea specificată a mediei. 


Bussi 


e 


Diagrama Error Bar descrie intervalul de încredere de 95% a mediei unei 
variabile (sau a deviatiei standard), adică intervalul care, am putea spune, cu o 
încredere de 95%, că acoperă valoarea medie. 
Demersul folosit în SPSS pentru construirea diagramei Error Bar este 
următorul (vezi figura 8.4): 
— Se selectează meniul Graphs — comanda Error Bar; 
— [n fereastra Error Bar se alege tipul Simple şi butonul de opțiuni 
Summaries of separate variables; 

- Prin clic pe butonul de comandă Define deschidem fereastra Define 
Simple Error Bar, 

-  Selectăm variabila considerată şi o mutăm în zona Error Bars; 

- [n zona de editare Level, alegem intervalul de încredere pentru medie 
(implicit este 95%); 

- Activám butonul OK pentru a comanda obţinerea diagramei dorite. 

Pentru exemplificare considerăm aceleaşi date ca în procedeul One-Sample T Test. 


Interpretare 

Şi prin procedeul Error Bar se poate observa că valoarea umeri (30) nu 
este cuprinsă în intervalul de încredere (36,5; 39,5). Ca urmare, se poate spune 
cu o încredere de 95% că se respinge ipoteza de nul, adică de egalitate a vârstei 


medii a persoanelor din eşantion cu valoarea specificată (30) 


Observaţie! Se constată că prin cele două procedee, One-Sample T Test şi 
Error Bar, s-a ajuns la aceeaşi concluzie: respingerea ipotezei de nul; între 
vârsta medie observată la nivelul eşantionului considerat și valoarea specificată 
există o diferenţă semnificativă. 
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Figura 8.4 Ferestrele Error Bar şi Define Simple Error Bar 
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8.2.3 Testarea egalitátii mediilor a douá esantioane 
independente (Independent-Samples T Test) 


In SPSS, testarea a douá medii poate yiza fie cazul a douá populatii (grupe) 
independente, fie cazul a douá populatii (grupe) dependente. 


Independent-Samples T Test este un procedeu care se aplicá in cazul 
esantioanelor independente. Prin acest procedeu, se testeazá dacá mediile a 
două grupe sunt egale. 

Demersul testării folosind SPSS este: meniul Analyze — comanda Compare 
Means — opţiunea /ndependent-Samples T Test. 
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Figura 8.6 Fereastra Variables (meniul Utilities — comanda Variables) şi fereastra 
Independent-Samples T Test (meniul Analyze — comanda Compare Means) 
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Exemplu: Dorim să testăm dacă, la nivelul eşantionului observat, vârsta 
medie pentru grupa bărbaţi este diferită de vârsta medie pentru femei. 


Urmând demersul de mai sus, în fereastra /ndependent-Samples T Test 
selectăm variabila de testat ,,vársta" si o mutăm în zona Test Variables, iar 
variabila „sex” — în Grouping Variable. Se definesc grupele variabilei; în acest 
caz, folosim 1 pentru masculin şi 2 pentru feminin. Informaţiile asupra 
variabilei le putem găsi şi în fereastra Variables dacă selectăm meniul Utilities 
şi comanda Variables (vezi figura 8.6). Output-ul este prezentat în figura 8.7. 

Calculul statisticii test pentru compararea mediilor a două populaţii cere să 
se verifice dacă deviaţiile standard la nivelul celor două grupe sunt 
semnificativ diferite, deoarece prin ipoteza de nul se presupune că cele două 
populaţii au variante egale. Se foloseşte în acest scop testul Levene de egalitate 
a variantelor (Levene 's Test for equality of Variance). 





Group Statistics 


varsta persoanei masculin 
feminin 

















, not assumed 
a 








Figura 8.7 Output-ul din Independent-Samples T Test 


Interpretare. Dacă nivelul de semnificaţie observat pentru acest test este mic 
(de exemplu, mai mic decát 0,05), atunci se folosesc variante distincte pentru 
testarea mediilor. Dacá acest nivel este mare, ca in cazul considerat (Sig. este 
egal cu 0,682), atunci se folosesc variante reunite sub formà de medie 


ponderatá s>. 
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Test cu variante comune: Test cu variante separate: 
X =X; i X —3X, 
[oc —— rf = = 
l l s? 5? 
2 $4 
E (ea de (=+) 
n n n n, 
unde: 
2 
y (nm -Ds*(Ó, Ijs? "WO NA " 
8 = : & reprezintă varianta comună; 
ntn,;-2 


X,— media grupei i; 
n,— numărul observaţiilor din grupa i; 
s? — varianta grupei i la nivelul eşantionului observat; 
(n, * n, — 2) reprezintă gradele de libertate pentru testul cu variante comune. 
Nivelul de semnificatie (Sig.) pentru testul Levene fiind mare (0,682), in 
exemplul dat, folosim testul cu variante comune (Equal variances assumed). 
— În acest caz, testul t este egal cu — 0,785, cu 398 grade de libertate si o 
probabilitate Sig. de 0,433 (mai mare decât 0,05), si ne arată cá pentru mediile 
celor două grupe (37,35 si 38,54) nu se poate trage concluzia cá diferă 
semnificativ. FPES aCRCAaPIC Le CR 
i— Ta aceeași constatare ajungem şi prin observarea intervalului de încredere 
pentru diferența dintre cele două valori. Intervalul conține zero, ca urmare nu 
se poate trage concluzia că diferenţa dintre valorile medii ale celor două grupe 
este semnificativă. 


| 
| 
| 
L 








8.2.4 Testarea egalității mediilor a două esantioane perechi 
(Paired-Samples T Test) 


Paired-Samples T Test este un procedeu care se aplică în cazul egantioanelor 
dependente. Prin acest procedeu, se compará mediile pentru un singur grup 
observat in momente diferite. 

Adesea, prin acest test se observă aceiaşi subiecti în două momente diferite, 
de exemplu, înainte şi după un tratament, verificându-se dacă diferenţele dintre 
valorile medii sunt semnificative. Se calculează diferențele dintre valorile celor 
două variabile pentru fiecare caz în parte şi se testează dacă diferențele dintre 
mediile acestora diferă de zero. 

Demersul folosit în SPSS este: meniul Analyze — comanda Compare 
Means — opţiunea Paired-Samples T Test. 
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Exemplu: Considerăm variabilele p_inv00 si p inv01 din dez reg.sav. 
Dorim să verificám dacă nivelul mediu al numărului populaţiei ocupate în 
învățământ la nivel de judeţ, în România, în anul 2000, diferă sau este 
echivalent cu cel din anul 2001 (la sfârşitul anului). 

Demersul urmat, după selectarea opțiunii Paired-Samples T Test, este 
prezentat în figura 8.8. 





DE Paired-Samples T Test 





® Castigul salarial nom 
&® Castigul salarial nor 


Paired Variables: OK | 


p invOO --p inv 01 





: Past 
® Castigul salarial nom isi 
“49 Castigul salarial norr >] Reset 
® Castigul salarial norr 
Cancel 


® Castigul salarial nom 
3 


m Current Selections 
Variable 1: c_inv00 








Figura 8.8 Fereastra Paired-Samples T Test 


-  Selectăm în fereastra dialog Paired-Samples T Test prima variabilă, 
prin clic asupra ei, şi vom vedea că SPSS o mută în Current Selections 
(în partea din stânga jos a ferestrei), ca Variable 1; 

—  Efectuăm aceeaşi operațiune pentru a doua variabilă; 

-  Mutăm perechea de variabile în zona Paired Variables (in partea 
dreaptá a ferestrei dialog). Se pot repeta aceste operatii pentru cáte 
perechi de interes avem; 

- Prin butonul de comandă OK, se obţine output-ul prezentat in figura 8.9. 


Interpretare. Pentru testul t, corespunzător procedeului Paired Samples 
Test, s-au calculat, mai întâi, pentru fiecare județ în parte, diferenţele dintre 
valorile din 2000 şi 2001, apoi s-au calculat media acestor diferente (X,) şi 
deviația standard a diferențelor (0, ). Pe baza acestor rezultate se obține 
valoarea statisticii test t: 

Xa 


PR, 
c,/vNn 
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Paired Samples Statistics 
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Mean N Std. Deviation Mean 
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-.1271 1080 -.164 41 871 

























Figura 8.9. Output-ul Paired Samples Test 


Media diferențelor perechi între populaţia ocupată in învățământ în România 
în anul 2000 şi cea din 2001 este de 96 mii de persoane. Valoarea Sig. (egală cu 
0,871) asociată cu statistica test t este mare (> 0,05), fapt ce nu ne permite să 
concluzionám cá media diferențelor perechi de 0,00952 (9,52E — 03) este 
diferitá semnificativ de zero. 


8.2.5 Testarea egalitátii a trei si mai multe medii 
(One-Way ANOVA) 


ANOVA (Analysis of Variance) este un procedeu de analiză a variantei unei 
variabile numerice sub influenta unei variabile de grupare. 

Prin ANOVA, se compará medii pentru trei si mai multe subpopulatii 
definite de variabila de grupare (variabila independentă). 

Această metodă permite extensia analizei realizate prin testul f, aplicabil 
asupra a două medii, la situaţii în care variabila independentă (variabila de 
grupare) prezintă trei şi mai multe categorii (niveluri). 
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De asemenea, ANOVA poate fi folosită in analiza unor situaţii in care 
asupra variabilei numerice (variabila dependentă) acționează simultan mai 
multe variabile independente. În astfel de cazuri, prin ANOVA se poate 
prezenta modul în care aceste variabile independente interacționează una cu 
alta şi ce efecte au aceste interacțiuni asupra variabilei dependente. 


One-Way ANOVA (ANOVA unifactorială) este unul din procedeele de 
analiză a variantei pentru o variabilă cantitativă dependentă de o singură 
variabilă factor (de grupare). Variabila factor, numită şi variabilă 
independentă, explicativă, trebuie să fie calitativă şi trebuie să aibă un număr 
redus de categorii (modalități). 

Ipoteza nulă, ipoteza de testat, formulată prin acest procedeu, presupune 
egalitatea a trei şi mai multe medii: 


Ho: Li => =. = pis 
unde: 
ui este media grupei i. 


Interpretarea rezultatelor ANOVA vizează două teste, şi anume: 

- Testul de omogenitate a variantelor. Această problemă implică testul de 
omogenitate a variantelor subpopulatiilor, definite de modalităţile 
variabilei factor (de grupare). Acest test este necesar pentru a determina 
care test este adecvat comparării mediilor. Ipoteza de nul este respinsă 
dacă valoarea Sig. (probabilitatea a) este inferioară valorii 0,05 (5%), 
semnificând că nu sunt egale toate variantele. 

- Testul ANOVA. Ipoteza nulă este respinsă dacă valoarea Sig. este 
inferioară valorii 0,05 (5%), semnificând că cel puţin două medii, 
calculate la nivelul subpopulatiilor, diferă între ele. 


In SPSS, pentru compararea a trei şi mai multe medii este folosit următorul 
demers: meniul Analyze — comanda Compare Means — opţiunea One-Way 
ANOVA. 


Exemplu: Considerăm variabilele p inv01 şi regiunea. Dorim să verificám 
dacă nivelul mediu al numărului populației ocupate în învățământ pe un Judeţ, 
în România, în anul 2001, este acelaşi sau diferă de la o regiune la alta, 
respectiv dacă diferenţa dintre mediile grupelor (regiunile României) este egală 
cu zero sau este semnificativ diferită de zero. 

După selectarea opțiunii One-Way ANOVA, se parcurg următorii paşi: 

- În fereastra de dialog One-Way ANOVA alegem variabila p inv01 pe 
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care o mutám in zona Dependent List şi variabila regiunea pe care o 
mutám in zona Factor; 

- Prin butonul de comandă Options (vezi figura 8.10), se deschide 
fereastra One-Way ANOVA: Options in care se bifeazá casetele de 
validare Descriptive, Homogeneity of variance şi Means plot pentru a se 
verifica îndeplinirea restricțiilor de normalitate, homoscedasticitate şi 
independență impuse unei analize ANOVA. 


Ix 
















p_l ® Populatia civila ocu 4 Dependent List: OK 
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p t |® Populatia civila ocu Reset 
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-= 3» Castigul salarial nor 

C_ |» Castigul salarial nor 
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p agiü1 | E. civila None 
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= Descriptive 

p_cons01 |I îi üs ` eM a civila None 
a eom fit |] Homogeneity-of-vari aia iara 
p. irs 0 1 T» Means plot civila None 
p inv D1 | Missing Values civila None 
—m eei ealan Nana 
c agri e Exclude cases analysis by analysis xim au lone 
c indO1 | ; „sf salari None 
€—€—' C Exclude cases listwise zi 

c consÜ1 |I salari | None 


Figura 8.10 A/egerea variabilelor si statisticilor in procedeul 
One-Way ANOVA 


Restrictia de normalitate se verifică observând dacă distribuţia valorilor din 
fiecare grupă prezintă asimetrie accentuată, dacă sunt outlier-i sau alte 
anomalii. În acest scop, se pot folosi rezultatele din Descriptives. De asemenea, 
se pot utiliza diagramele Boxplot, create prin opțiunea Explore a comenzii 
Descriptive Statistics din meniul Analyze (vezi Boxplot din figura 8.11), sau 
alte procedee de verificare a normalitátii (vezi paragraful 6.4). 
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Figura 8.11 Boxplot 


Observând diagramele Boxplot, se constată că cele 8 grupe au distribuții 
normale după numărul persoanelor ocupate in învățământ; prezintă o asimetrie 
relativă. De asemenea, se constată valori extreme (outlier, regiunea București). 

Restrictia de homoscedasticitate. Una din restricțiile aplicării ANOVA o 
constituie homoscedasticitatea, adică se presupune cá variantele grupelor sunt 
egale. Se poate verifica această ipoteză cu ajutorul testului Levene — Test of 
Homogeneity of Variances. 

Output-ul pentru acest test este prezentat in figura 8.12. 

Interpretare. Valoarea Sig. (testul Levene) egală cu 0,000 este mai mică 
decât 0,05, sugerând cá variantele pentru cele 8 regiuni nu sunt egale. În aceste 
condiţii, fiind încălcată restrictia de homoscedasticitate, nu se poate aplica 
ANOVA. 


Observaţie! Se observă, în output-ul Descriptives, că regiunea Bucureşti are 
o valoare a deviatiei standard care se abate mult de la valoarea celorlalte 
regiuni. Acest fapt ne motivează să considerăm regiunea Bucureşti ca outlier şi, 
ca urmare, să o excludem din ansamblul regiunilor. Pentru aceasta, din foaia 
Variable View a fişierului Data Editor: Pop_ocupata pe judete.sav selectăm 
coloana Missing pentru a deschide fereastra Missing Values. În această 
fereastră, selectăm butonul de opțiuni Discrete missing values, precizăm 
valorile outlier-e şi refacem aplicaţia în noile condiţii (fără această regiune). 
Noile rezultate sunt prezentate în figura 8.13. 
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Descriptives 


Populatia civila ocupata in invatamant, mii persoane, in 2001 








95% Confidence Interval for 
Mean 





Std. Deviation| Std. Error |Lower Bound [Upper Bound | Minimum |Maximum 
Nord-Est 12.0667 5.3616 2.1889 
Sud-Est 7.9667 3.2327 1.3198 
Sud 7.2857 3.9019 1.4748 
Sud-Vest 5 8.3400 3.6295 1.6231 

9.6750 4.7528 2.3764 
10.1500 5.7386 2.3428 
Centru 9.3667 3.2042 1.3081 
Bucuresti > | 26.5500 32.1734 | 22.7500 -262.5162 
Total 10.0429 7.5310 1.1621 7.6960 
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Figura 8.12 Mediile, deviajiile standard calculate pe regiuni, precum si testul Levene 
de omogenitate a variantelor 
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Figura 8.13 Rezultatele după excluderea 





valorilor outlier ale regiunii Bucureşti 
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Ín noile conditii, valoarea Sig. (0.749) pentru testul de omogenitate a 
variantelor este mai mare ca 0,05, sugerind cá variantele pentru cele 7 regiuni 
sunt egale, deci restrictia de homoscedasticitate este îndeplinită si astfel se 
poate aplica ANOVA. 

Tabelul ANOVA si graficul corespunzátor pentru mediile pe regiuni sunt 
prezentate in figura 8.14, respectiv figura 8.15. 





ANOVA 


Populatia civila ocupata in invatar 


Between Groups 


Within Groups 
Total 














Figura 8.14 Tabelul ANOVA 


Interpretare. In tabelul ANOVA din figura 8.14 sunt prezentate: statistica 
test F, valoarea Sig., precum şi elementele de calcul pentru statistica test F. 
Statistica test F se calculează după relația; Hos ds 
pan E 





unde: XE OE INER: 

S? reprezintă estimatorul varianfei intergrupe (Between-Groups). Se 
calculeazá ca medie a pátratelor abaterilor mediei fiecárei grupe fatá de media 
pe ansamblul grupelor şi arată varianta datorată influenţei factorului de 
grupare; 

S; reprezintă estimatorul mediei variantelor de grupă şi arată varianţa din 
interiorul fiecărei grupe (Within Groups), varianta datorată influențelor 
aleatorii. 

Cu cât mediile grupelor au valori mai diferite între ele, cu atât variaţia dintre 
grupe este mai mare; cu cât o variaţie, în interiorul grupelor, este relativ mai 
mică, cu atât statistica test F este mai mare, arătând că ipoteza nulă poate fi 
respinsă. 

- În exemplul considerat, statistica test F este mică (0,831), cu o probabilitate 
asociată Sig. (0,555) mai mare decât 0,05 — evidențiază că ipoteza de egalitate a 
mediilor pe grupe nu se respinge, deci regiunile nu diferă semnificativ în raport 
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cu numărul mediu al persoanelor ocupate în învățământ, la nivelul anului 2001. 
Acest fapt se poate observa şi din figura 8.15. 
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Figura 8.15 Numărul mediu al populaţiei ocupate în învățământ, pe regiuni, 


în România, 2001 


8.3 Teste neparametrice în SPSS 


Testele neparametrice aplicabile în SPSS sunt: Chi-Square, Binomial, Runs, 
l Sample K-S, 2 Independent Samples, K Independent Samples, 2 Related 
Samples, K Related Samples (vezi figura 8.16). 


8.3.1 Testarea egalității unei proporții cu o valoare specificată 
(Binomial Test) 


Binomial Test este un procedeu prin care se testează ipoteze cu privire la o 
variabilă cu distribuţie binomială, variabilă care poate lua doar două valori, de 
exemplu, sexul persoanelor. 
Pentru astfel de variabile, se calculează frecvențele de apariţie a fiecăreia 
dintre cele două valori, iar pe baza lor, media, deviația standard etc. 
Binomial Test este similar cu One Sample t-test şi este folosit pentru a 


compara o proporţie cu o valoare specificată. 
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Realizarea acestui test în SPSS presupune următorul demers: meniul 
Analyze — comanda Nonparametric Tests — opţiunea Binomial. 























à : X 
Analyze Graphs Utilities Window Help 
Reports > z A 
Descriptive Statistics [a stel Es] lol 
E Custom T ables > | Label Val“ 
Compare Means * | Judetele Roma 11, Bac 
General Linear Model f Regiunile Rom (1, Nor 
Correlate > 
Regression b F 
| Loglinear > 
| Classify y | Populatia civila None 
Data Reductor » | Populatia civila None 
5 » | Populatia civila None 
b Chi-S quare... 
b Binomial... 
r b Runs... 
Multiple Response > 1-Sample K-S.. 





Missing Value Analysis.: 2 Independent Samples 
K Independent Samples.. 


2 Related Samples. 








K Related Samples | 


a L ——————O 


Figura 8.16 Testele neparametrice aplicabile in SPSS 





Exemplu: Dorim să verificăm dacă proporția uneia dintre cele două grupe de 
persoane definite prin variabila „sexul persoanei”, masculin şi feminin, diferă 
semnificativ de 0,50. Suma proporţiilor, respectiv a probabilităților de apariţie 
a celor două valori fiind unu, probabilitatea pentru oricare valoare este 0,50, 
adică / minus 0,50. 


După selectarea opțiunii Binomial şi deschiderea ferestrei Binomial Test, 
paşii de urmat sunt: 

În fereastra Binomial Test selectăm variabila binomială, „sexul persoanei” 
şi o mutám în zona Test Variable List (se pot selecta mai multe 
variabile); 
In zona Define Dichotomy alegem Get from date, adică cele două valori 
ale variabilei (1 pentru masculin și 2 pentru feminin) sunt definite în 
toaia Variable View. Cealaltă opţiune, Cur point, se foloseşte atunci când 
se consideră o variabilă continuă pe care o dichotomizăm. De exemplu, 


34 


pentru variabila „vârsta persoanei”, am putea lua două grupe: | — grupa 


persoanelor cu vârsta € 20 ani — şi 2 — grupa persoanelor cu vârstă > 20 ani; 
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În zona de editare Test Proportion se precizeazá valoarea dorità. 
Implicit, se considerá valoarea 0,50; 

Butonul de comandá OK declangeazá obtinerea output-ului (vezi figura 
8.18). 
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Figura 8.17 Fereastra Binomial Test 











Observed Asymp. Sig. 
Category N Prop.  |TestProp.| (2-tailed) 


sexul persoane Group 1| masculin 170 A3 50 .0032 
Group 2| feminin 230 57 
400 1.00 





Binomial Test 










a. Based on Z Approximation. 








Figura 8.18 Output-ul pentru Binomial Test 


Interpretare. Proportia observată în eşantion pentru grupa 1 (masculin) este 


de 43%, proportia specificată este 50%. Valoarea Sig. asociată testului este mai 
mică decât 0,05, astfel încât se poate concluziona, cu o încredere de 95%, că 
proporţia bărbaţilor în eşantion diferă semnificativ de proporţia specificată, 


50%. 
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8.3.2 Testarea egalității a două si mai multe proporții 
(Chi-Square) 


În SPSS, procedeul Hi-pătrat (numit şi Hi-pátrat de ajustare) se aplică pentru 
testarea ipotezelor cu privire la variabile nominale (categoriale) sau variabile 
ordinale, fie ca test de „ajustare”, fie ca test de independenţă. 

În cazul unei variabile nominale, testul Hi-pătrat este folosit pentru a 
verifica dacă distribuţia de frecvență a unei variabile pe categorii corespunde 
fie cu distribuţia teoretică a frecvenţelor relative (ipoteza de nul presupune că 
toate categoriile au proporții egale), fie cu o distribuţie de frecvență propusă 
(reţetă). 

Aplicarea acestui procedeu de testare presupune următorul demers: meniul 
Analyze — comanda Nonparametric Tests — opţiunea Chi-Square Test. 


Exemplu: Considerăm variabila „sexul persoanei” din Tapestry.sav. Dorim 
să verificăm dacă proporţia persoanelor de sex masculin este egală cu proporția 
persoanelor de sex feminin. 

După selectarea opțiunii Chi-Square Test şi deschiderea ferestrei Chi- 
-Square Test, paşii de urmat sunt: 

- [n fereastra dialog Chi-Square Test (vezi figura 8.19) selectám variabila 
pentru care dorim să testám proporţiile, în cazul nostru variabila „sexul 
persoanei” şi o mutám in zona Test Variable List. Se pot selecta mai 
multe variabile, pentru fiecare variabilă obținându-se câte un tabel de 
frecvenţă separat; 

- În zona Expected Range definim categoriile pentru care dorim să testăm 
proporțiile. Alegem Get from data, considerând categoriile definite 
pentru variabila „sexul persoanei”. 

Observaţie! În cazul când se lucrează cu o variabilă continuă, se alege Use 
specified range, specificându-se valoarea minimă şi valoarea maximă între care 
dorim să verificăm dacă elementele au aceeași pondere cu valoarea specificată. 

- [n zona Expected Values, alegem ipoteza toate proporțiile egale sau 
proporții specificate (reţetă). Optám pentru All categories equal; 

-  Selectând butonul de comandă Options se deschide fereastra Chi-Square 
Test: Options în care se poate opta pentru Descriptive (media, deviația 
standard, valoarea minimă, valoarea maximă, numărul cazurilor) sau/şi 
pentru Quantiles (centila a 25-a, a 50-a, a 75-a). 

Prin clic pe butonul de comandă Continue, se revine în fereastra Chi- 
-Square Test, din care se selectează OK, care comandă lansarea 


) 


procedurii de obtinere a output-ului, prezentat in figura 8.20. 
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Figura 8.19 Alegerea optiunilor în fereastra Chi-Square Test 


Interpretare. În tabelul frecventelor, sunt comparate frecventele observate 
cu frecvențele teoretice (aşteptate conform ipotezei de nul), pentru fiecare 
categorie i. Diferențele sunt prezentate pe categorii în coloana Residual. În 
exemplu dat, se observă cá sunt 170 de persoane de sex masculin si 230 de sex 
feminin. Conform ipotezei de nul (de egalitate a proporțiilor), pentru fiecare 
categorie ar trebui să fie câte 200 de persoane. În coloana Residual sunt 
prezentate diferențele fati de valorile teoretice, pentru fiecare categorie, si 
anume: — 30 şi 30. 

În tabelul Chi Square Test, se prezintă valoarea statisticii Hi-pătrat (Chi- 
-Square — x^), gradele de libertate (df) şi valoarea semnificației (4symp. Sig.). 
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Figura 8.20 Output-ul pentru procedeul Hi-pătrat în cazul unei variabile categoriale 








Testarea ipotezelor statistice 





Statistica test Hi-pátrat pentru o variabilă se calculează după relaţia: 


) (n; -n:p,)? 
X -2» 


n-p; 





unde: 
n; reprezintă frecvențele observate în categoria i; 


n= Yn reprezintă volumul esantionului; 


pi reprezintă frecvența relativă teoretică, dB = 1. Fiecare pj se 
înmulțește cu n pentru a deveni comparabilă cu frecvenţa observată, n;. 

In exemplul dat, valoarea estimată a statisticii Hi-pátrat este semnificativă 
la un nivel de încredere de 99%, deoarece valoarea Asimp.Sig.« 0,01. Ca urmare, 
ipoteza nulă este respinsă. Se poate trage concluzia că cele două categorii de 
persoane (masculin, feminin) nu au aceeaşi proporţie; distribuția nu este 
uniformă. 
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9.1 Introducere în analiza de corelaţie si regresie 


In acest capitol vom trata problemele metodologice de bază ale studiului 
legăturilor statistice cu ajutorul analizei de corelaţie şi regresie, precum şi 
demersul specific acestor metode în SPSS. 


9.1.1 Noţiunea de legătură statistică 


O legătură statistică (stochasticá) are loc atunci când modificarea unei variabile 
este rezultatul conjugat al influenţei mai multor variabile, influență manifestată 
în medie, pe ansamblul unităţilor unei colectivități. În cazul a două variabile, X 
şi Y, o legătură statistică are loc atunci când pentru fiecare valoare a variabilei 
X, variabila aleatorie Y ia valori distribuite în jurul mediei sale. Abaterile 
variabilei Y, in plus şi minus față de medie, sunt datorate acţiunii altor 
variabile (altele decât variabila X). 

De exemplu, în cazul legăturii dintre nivelul consumului şi cel al veniturilor 
indivizilor unei populaţii, nivelul consumului depinde de nivelul veniturilor 
indivizilor, dar asupra consumului acționează şi alti factori ale căror influențe 
le însumăm într-o variabilă aleatorie reziduală. 


9.1.2 Probleme ale analizei de corelație şi regresie 


Într-o cercetare bazată pe analiza de corelaţie şi regresie trebuie rezolvate 

următoarele probleme: 

l. Identificarea existenței legăturii. Se rezolvă prin analiza logică a posibilităţii 
de existenţă a unei legături între variabilele considerate. 

2. Determinarea gradului de intensitate a legăturii. Se rezolvă cu ajutorul 
indicatorilor parametrici sau neparametrici ai intensității corelatiei, folosiţi 
în analiza de corelație. 

3. Stabilirea sensului şi formei legăturii. Se utilizează metode specifice 

analizei de regresie; metode elementare (serii paralele interdependente, 

gruparea statistică, tabelul de corelaţie, diagrama de tip scatterplot) şi 
metode analitice (de exemplu, metoda celor mai mici pătrate). 
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9.2 Analiza de corelație 


Analiza de corelaţie este folosită pentru a studia intensitatea legăturii dintre 
variabile. În sens strict, corelatia este o măsură a intensității legăturii dintre 
variabile. 

Legăturile statistice, în funcţie de tipul variabilelor considerate, pot exprima 
fie asocieri (cazul variabilelor nominale), fie corelaţii (cazul variabilelor 
numerice). Ne vom opri asupra măsurării corelatiei. 

Corelatia poate fi exprimată prin: covariantá, coeficientul de corelație 
Pearson, raportul de corelaţie Pearson, coeficienți neparametrici de corelaţie. 


9.2.1 Coeficientul de corelație Pearson 


Coeficientul de corelaţie teoretic se notează cu fX. Y ) si este definit de relația: 


- cov( X, Y) b (x, — Hx ) o, a Hy ) 








AX,Y)= = „iN, 
Ox : O, N ^ Ox 1 O, 
unde: 
X(x, - 3), - y) 
— cov (X, Y )- covarianta: cov( X, Y)= GE agb: : 


— X, Y, Şi H,, 4,— valori ale variabilelor corelate şi nivelul mediu al acestora; 


| 


N — numărul perechilor de valori; 
— 0, şi O, — abaterea medie pătratică pentru X, respectiv Y. 

Coeficientul de corelaţie este obținut prin standardizarea covariantei. 
Valoarea coeficientului de corelație este cuprinsă între —/ şi +Z: 

-1<ps+] 

Dacă p ia valoarea zero, atunci între variabile nu există legătură. 

Semnul valorii p arată sensul relației dintre variabile. Semnul plus arată o 
legătură directă (pe măsură ce cresc valorile variabilei X, cresc şi valorile 
variabilei Y), iar semnul minus — o legătură inversă (pe măsură ce cresc 
valorile variabilei X, valorile variabilei Y descresc). 
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Valoarea absolută a lui p indică intensitatea legăturii, si anume: cu cát se 
apropie mai mult de 1, cu atát legátura este mai puternicá, respectiv cu cát se 
apropie mai mult de zero, cu atát legátura este mai slabà. 

Un coeficient de corelaţie egal cu +1 indică o legătură directă perfectă între 
variabile. Un coeficient de corelaţie egal cu — 1 arată o legătură inversă 
perfectă. 


9.2.2 Estimarea şi testarea coeficientului de corelație 


Un estimator D. pentru coeficientul de corelaţie (o) are ca valori posibile coefi- 
cientii de corelație empirici (r, ), determinati la nivelul esantioanelor posibil de 
extras printr-o metodă de sondaj. 

In acest sens, la nivelul unui eşantion de volum n, se determină coeficientul 
de corelaţie empiric propus de K. Pearson: 
n A 3-2 
3 6, -3)9, =>) 
_ COv(x,y) ^3 


Yy > 


S "8, N SgS 


X y 





care reprezintă o estimatie pentru parametrul p. 


Dezvoltánd relatia de mai sus, se obtine o formulá de calcul simplificat al 
coeficientului de corelaţie empiric: 





n2, x, y,- 22xi 2 y, , L— 
[nY xi -(X x, ]nE y] -(X y] 





Consideránd datele cu privire la legátura dintre cantitatea de îngrăşăminte şi 
producția medie de grâu la hectar, prezentate în tabelul 9.1, precum şi 
elementele de calcul date în tabelul 9.2 , obţinem: 


5.420 — 15.115 (375 
Jr5.55- (5 )1[5.3225-(115 ? ] 380.79 





Ky 





—0,98479 . 





Valoarea obtinutá este foarte apropiată de +/, deci între cele două variabile 
există o legătură directă foarte strânsă. 
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Testarea semnificației valorii coeficientului de corelație pleacă de la ipoteza 
că nu există corelaţie între variabile: 
Ipoteza nulă H/, :p=0; 
Ipoteza alternativă H; :pz0. 
Verificarea ipotezei H, se face cu ajutorul testului t pentru coeficientul de 
corelaţie simplă. 
Testul t (Student) folosit pentru verificarea semnificației coeficientului de 
corelaţie simplă este: 


p pxn-2 


t= = 


o5 1 - p 
unde: 


t este o statisticá Student cu (n—2) grade de libertate; 





O, este estimatorul abaterii medii pátratice a lui 2 (estimatorul lui p): 


m 


1- p 





95 = ; 
n-2 


La nivelul unui eşantion observat, se obțin relațiile: 





unde: 
r, — coeficientul de corelaţie simplă; 


y 


n — numărul perechilor de valori x şi y. 


Valoarea calculată a lui t se compară cu valoarea teoretică obținută din 
tabelul t (Student), pentru n—2 grade de libertate şi nivelul de semnificație 
stabilit. 

Dacă tu. »1,,, atunci se respinge H, şi se trage concluzia, cu un risc 
considerat (de regulă, 5 %), că valoarea coeficientului de corelaţie nu este egală 
cu zero; respectiv, că între variabilele cercetate există o legătură semnificativă, 
deci coeficientul de corelaţie este semnificativ statistic. 


Considerând legătura dintre cantitatea de îngrăşăminte şi producția medie de 
râu la hectar, prezentată prin datele din tabelul 9.1, cu un număr de 5 valori x 


o 
si y, pentru care s-a găsit coeficientul de corelaţie r,. = 0,98, se calculează 


A 


testul t astfel: 
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În tabelul £ Student, la n — 2 = 3 grade de libertate si pentru un nivel de 
semnificaţie a = 0,01, găsim t = 5,841. 

Comparând /,, cu taps se observă că: top = 8,53 > 1,, = 5,841, prin 
urmare se respinge ipoteza nulă şi se poate trage concluzia că valoarea 
coeficientului de corelaţie este semnificativă statistic. 


9.2.3 Estimarea şi testarea raportului de corelaţie 


Raportul de corelaţie Pearson este un indicator al intensității legăturii ce poate 
fi aplicat atât în cazul regresiei liniare, cât şi al celei neliniare, simple sau 
multiple. 

Raportul de corelaţie este notat cu 7 şi se defineşte prin relaţiile: 





-—— . —— reprezintă varianta generală, respectiv varianta variabilei Y 
in raport cu media tuturor valorilor sale; 
$0, =M) F 
2 ni 


oy. N 
influenta factorilor esentiali); 
Y» - Yx y 

2 iR 


9 yy. Zi 


, Varianta valorilor teoretice faţă de media lor (varianta sub 


= , Varianta valorilor reale față de valorile teoretice ale 
variabilei (varianta reziduală, eroare e, ). 
Varianţa generală este egală cu suma celorlalte două variante componente: 


d Pe sd ; 
O y e Oy ý O y/ yy? 










^- 
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respectiv, variaţia totală (V, ) este suma variației explicate (V,) şi a variației 


reziduale ( V, ), adică: 


/ 


V. =V; +a. 


a) 





YA 
" 
' | 
| 
i y 
I$ 
»x 0 
YA 
hys Ji 
y 
y 
= 0 


d) 


x? x 


Figura 9.1 Descompunerea pe componente a variantei unei variabile Y, într-un model de 
regresie: a) varianta totală; b) varianta explicată; c) varianta reziduală; d) relaţia între 


componente 


Reprezentarea graficá a descompunerii variantei unei variabile Y pe 
componente (varianta explicată şi varianta reziduală) într-un model de regresie, 
precum şi relația între componente sunt prezentate în figura 9.1 


Valoarea raportului de corelaţie este un număr cuprins în intervalul: 


US €l. 
Valoarea la 


determinatie: 


G; 


pătrat a 


raportului de 


corelatie 


reprezintă 


raportul de 


şi arată ponderea influenței variabilei X asupra variației variabilei Y. Acest 


indicator se exprimă, de regulă, în procente, pentru a facilita interpretarea 


rezultatelor. 























N 
LI 
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Prin explicitarea celor două variante, o2, si 92, din raportul de corelaţie şi 
efectuarea unor transformări elementare, se ajunge la raportul de corelaţie pe 
baza valorilor parametrilor ecuaţiei de regresie din modelul admis. 

În cazul regresiei liniare (y=a+/fx+e), raportul de corelaţie devine: 





p Sa ] 3 
eXy*tixjy;- N (2 yj) 
^ i-LN. 





Estimarea raportului de corelație. La nivelul unui eşantion observat, raportul 
de corelaţie se poate determina pe baza valorilor empirice, folosind relaţia: 








Jo 39 
aXy;tbXxiy;--—(XyX T 
n, = d i=1,n 
Zyi-—(Xy/f 


Aplicánd relatia raportului de corelatie la datele din tabelul 9.1, se obtine: 
9, 7:098. 

Raportul de determinafie (r^- 9696) arată că variaţia variabilei Y este 
determinată în proporţie de 96% de variabila X; diferența până la 100% s-ar 
datora factorilor aleatorii. 

Dacă valoarea la pătrat a raportului de corelaţie (77 ) este egală cu 
valoarea la pătrat a coeficientului de corelaţie empiric (r^ ), conform testului B 

PX 


p] 3 A att - 
(Blackman): r; =; „legătura este liniară. 
JX AX 


Testarea raportului de corelafie. Testarea raportului de corelatie se face 
pentru a verifica semnificaţia valorii acestuia. In acest scop este folosit testul 
F definit de relaţia: 


T n-k D 
k-1 1- 9] 








unde: 
n — numárul valorilor observate; 
k — numărul parametrilor estimati ai modelului de regresie. 
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Statistica F urmează o lege de distribuţie Snedecor-Fisher de v,-k-1$i 


v;-n-k grade de libertate. 


Valoarea calculată a testului se află pe baza datelor obținute la nivelul unui 
eşantion observat. 
Dacă E,,»E,,cuv,-k-1lsgi v;-n-k grade de libertate, atunci se 
trage concluzia că variabila factorială influențează semnificativ comportarea 
variabilei rezultative, deci raportul de corelaţie este semnificativ statistic. 


Observaţie! Testul t Student şi testul F Fisher conduc la rezultate identice în 
cazul unei regresii liniare simple. 


9.2.4 Coeficientii de corelaţie a rangurilor 


Rangul este o anumită treaptă de ordine a valorilor variabilei într-o serie. Pentru 
stabilirea rangurilor, valorile empirice ale variabilelor corelate sunt grupate după 
mărimea lor, în ordine crescătoare sau descrescătoare. De obicei, în funcţie de 
variabila independentă se ordonează şi variabila dependentă. 


Coeficientul Spearman. Este o extensie a coeficientului de corelație Pearson în 
care “valorile empirice ale variabilelor corelate sunt înlocuite cu rangurile lor 
corespunzătoare. 

Coeficientul Spearman se notează cu 8 şi se calculează după relaţia: 


unde: 
d; — reprezintă diferența dintre rangurile valorilor variabilelor corelate, 


d; = Ry Ryp izl,n, 


n — numărul unităţilor observate (numărul perechilor de valori [y, x]). 


Coeficientul Kendall. Acest coeficient se defineşte prin relaţia: 





E pi 
0, 5n (n - 1) — n(n- 1) 
unde: 
S = 0 + P, în care P reprezintă numărul de ranguri mai mari, luate în 


continuare față de rangul considerat, iar O este numărul de ranguri mai mici, luate 
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in continuare față de rangul considerat (se ia cu semnul minus). S se calculează 
pentru rangurile variabilei dependente (Y), ordonate după rangurile variabilei 
factoriale (X); 

n — numărul unităților observate. 

Coeficientii de corelație a rangurilor au ca interval de variaţie [-1,+1], cu 
aceeaşi semnificație ca şi în cazul coeficientului de corelație Pearson. 


9.2.5 Analiza de corelaţie folosind SPSS 


În vederea efectuării unei analize de corelație şi regresie cu ajutorul SPSS, se 
introduc datele în foaia Data View, din fişierul Data Editor, fiecare variabilă 
într-o coloană diferită. Pentru exemplificare, considerăm un caz simplu cu 
privire la analiza legăturii dintre cantitatea de producţie la hectar şi cantitatea 
de îngrăşăminte la hectar, pe baza rezultatelor înregistrate pe un eşantion de 
cinci firme. Datele pentru cele două variabile sunt prezentate în tabelul 9.1. 

SPSS prezintă două tipuri de corelaţie: bivariată şi parțială. Corelatia 
bivariată vizează legătura dintre două variabile, dintre care una este efectul 
(rezultativa, dependenta), iar cealaltă este cauza (factoriala, independenta). 
Corelafia parțială prezintă corelatia dintre două variabile, dintre care una este 
efectul controlat al influenţei uneia sau a mai multor variabile factoriale. 

Pentru corelatia bivariată, în SPSS se pot calcula trei coeficienți de 
corelaţie, şi anume: Pearson, Kendall şi Spearman, precum şi nivelurile de 
semnificaţie corespunzătoare unui test bilateral sau unui test unilateral. 


Tabelul 9.1 Cantitatea de îngrăşăminte şi producţia de grâu la ha 


4 firma i prod | 


10.00 











2 b 2 00 15 00 
3 C 3 Dü 20 00 | 
4 d 4 00 30,00 





5 e 500 40,00 | 





Pentru datele considerate anterior, folosim in SPSS urmátorul demers: meniul 
Analyze — comanda Correlate — optiunea Bivariate, prin care se deschide 


fereastra Bivariate Correlations (vezi figura 9.2). 


























IBI pivariate Correlations 







Variables: 





D] Reset 


Cancel 






Help 







Correlation Coefficients 
V Pearson Kendall's tau-b Spearman 
Test of Significance 


* Twotailed One-tailed 






Distances... 


1 Options.. 
* Flag significant correlations 











Figura 9.2 Selectarea opțiunii Correlate şi fereastra 
Bivariate Correlations 


După deschiderea ferestrei Bivariate Correlations se parcurg următorii paşi 
(vezi figura 9.3 ): 


Selectăm variabilele dorite şi le mutám în zona Variables; 

În zona Correlation Coefficients, alegem, prin bifare în casetele de 
validare corespunzătoare, coeficienţii de corelaţie pe care dorim să-i 
calculăm; 

În zona Test of Significance, alegem una din cele două opţiuni, Two- 
-tailed sau One-tailed, care permit selectarea pragului de semnificaţie 
corespunzător ipotezelor formulate. La deschiderea ferestrei de dialog, 
este selectată opțiunea Two-tailed. Opţiunea One-tailed se alege atunci 
când se cunoaşte direcția legăturii dintre cele două variabile; 

Caseta de validare Flag significant correlations este activată la 
deschiderea ferestrei dialog şi are ca efect semnalizarea corelatiilor 
semnificative. Astfel, coeficienţii de corelaţie semnificativi la pragul de 
0,05 sunt marcați cu un asterisc, iar cei semnificativi la pragul de 0,01 
sunt marcați cu două asteriscuri; 

Prin clic pe butonul de comandă Options deschidem fereastra Bivariate 
Correlations: Options, unde alegem opţiunile din zonele Statistics şi 
Missing Values; 

Prin butonul de comandă Continue se revine în fereastra Bivariate 
Correlations din care, activând OK, cerem obţinerea output-ului (vezi 
figura 9.4). 
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T" acm isa it d 


Variables: OK 


$ ingrăt 


$ prod Paste Statistics Continue 
Reset E 


v Means and standard deviations i 
Cancel 


EI 


Cancel Cross-product deviations and covariances 
Help Help 


Missing Values 
Correlation Coefficients 


v Pearson Kendall's tau-b Spearman * Exclude cases pairwise 
Test of Significance Exclude cases listwise 


* Two-tailed One-tailed 


Options... 





v Flag significant correlations 











Figura 9.3 Alegerea opțiunilor în procedeul Corelatie 


În output sunt prezentate statisticile pentru fiecare variabilă, precum şi 
valoarea coeficientului de corelație Pearson, cu nivelul de semnificaţie (Sig.) 
corespunzător. 

Tabelul Correlations este un tabel cu matricea coeficienţilor de corelaţie. 
Valorile sunt distribuite simetric, de o parte şi de alta a diagonalei coeficien- 
tilor de corelație egali cu 1, corespunzători corelatiei fiecărei variabile cu ea ! 
însăşi. De o parte si de alta a diagonalei tabelului sunt prezentate valorile 
coeficientilor de corelație dintre variabile, luate două câte două, si valorile 
pragului de semnificaţie (Sig.) corespunzător, precum şi numărul observaţiilor 
considerate, N. 





Correlations 
[LLL LL Neg PROB 
INGRA? Pearson Carrelation D * 

Sig. (2-tailed) 
N 


PROD Pearson Correlation 1,000 
Sig. (2-tailed) 
N 5 











** Correlation is significant atthe 0.01 level 





Figura 9.4 Output SPSS pentru procedeul Corelatie 
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Pentru exemplul considerat s-a obținut un coeficient de corelație Pearson 
egal cu 0.985, ceea ce sugerează că între variabile există o corelaţie directă, 
puternică, valoarea coeficientului fiind foarte apropiată de unu (valoare 
corespunzătoare unei corelaţii perfecte). 

Testarea semnificației coeficientului de corelaţie este realizată cu ajutorul 
testului t. Valoarea Sig. corespunzătoare, egală cu 0,002, evidenţiază că s-a 
obținut un coeficient de corelație semnificativ la un prag de 0,002, adică sunt 
şanse mai mici de 1% de a greşi dacă afirmăm că între cele două variabile 
există o corelaţie semnificativă. 


Observaţie! În exemplul dat, este prezentată o matrice a coeficienţilor de 
corelație bazată pe două variabile. Când se folosesc mai mult de două variabile, 
matricea generată de SPSS este asemănătoare, incluzând toate corelatiile 
perechi posibile. 


9.3 Analiza de regresie 
9.3.1 Concepte şi noțiuni 


Conceptul de regresie exprimă o legătură de tip statistic, şi anume regresia în 
medie! cu privire la comportamentul unor variabile. 
Analiza de regresie este folosită pentru: 
- estimarea valorilor unei variabile considerând valorile altei/altor variabile; 
- evaluarea măsurii în care variabila dependentă poate fi explicată prin 
variabila independentă sau printr-un set de variabile independente; 
- identificarea unui subset din mai multe variabile independente care 
trebuie luate în calcul pentru estimarea variabilei dependente. 
Un model de regresie, în expresie generală, poate fi scris astfel: 


Y = f(X,X,.,.X,)*6, 





l. În literatura de specialitate, expresia regresie in medie sau cum a scăpat omenirea de 
„&igantism " şi ,,piticism" este legată de cercetările lui Fr. Galton asupra eredității. Galton, 
observând modul în care evoluează înălțimea copiilor față de cea a părinţilor, a ajuns la 
concluzia că, de regulă, din părinți de talie mare se nasc copii cu o talie inferioară lor, iar 
din părinţi de talie redusă se nasc copii cu talie mai mare decât a părinţilor. Dacă din părinţi 
de talie mare s-ar fi născut copii cu talie şi mai mare ş.a.m.d., s-ar fi ajuns la gigantism sau, în 
celălalt caz, la piticism. Se înțelege că legitatea descoperită, ca orice legitate statistică, se verifică 
nu pe cazuri izolate, ci la nivelul colectivitátilor de volum mare (Fr. Galton, Natural Inheritance, 
Macmillan, London, 1889). 
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in care: 
Y — variabila dependentă (rezultativă), aleatorie; 
X ,..., X „— variabile independente (factoriale), nonaleatorii; 


€ — variabila aleatorie eroare sau reziduu. 


Observaţie! Intr-un model de regresie statistic, se adaugă termenul de eroare 
(£) la ecuaţia de regresie, deoarece nu toate punctele de coordonate (xi, yi) se 
găsesc chiar pe linia de variație medie. 


Variabila aleatorie e însumează influenţele variabilelor neincluse în model 
asupra variabilei Y. Variabilele aleatorii însumate în variabila € sunt variabile 
normale de medie zero, de aceeaşi variantá c; (adică, £e, ~ N(0,0;), unde 


o? = M (e? )) si sunt independente unele de altele. 


e 
Variabilele X şi Y respectă condiția de normalitate, adică: 
X-—N(u,,0;) şi Y  N(u,,0;); 
ceea ce implică: 
— liniaritatea regresiei; 
— normalitatea abaterilor in raport cu dreptele de regresie; 
— nulitatea mediilor acestor abateri: 


Ys -0-2 4, -(Y 2n; 
i=] i=] 


— egalitatea variantelor lor . 

Verificarea conditiei de normalitate a unei distributii este necesar a se 
efectua inainte de a trece la realizarea efectivá a analizei de corelatie si 
regresie, pentru a fundamenta alegerea procedeului de tratare a legáturii dintre 
fenomenele considerate. 


Ín SPSS, verificarea normalitátii se poate realiza prin analiza indicatorilor 
(media, mediana, modul, coeficientul de asimetrie — Skewness — si boltire — 
Kurtosis), prin analiza graficá (folosind histograma comparatá cu linia curbei 
distribuției normale, graficul Q-Q, graficul P-P), precum şi prin teste formale 
(testul Kolmogorov-Smirnov) (vezi capitolul 6). 

Un model de regresie simplu liniar se poate scrie: 


Y-oa +BX+e. 
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Un model de regresie multiplu liniar, cu două sau mai multe variabile 
factoriale, poate fi scris: 


Y=a +PiXi *...*B,X,*e. 


Pentru valori specificate (xi, yi şi £, ), se poate scrie: 


y, =Q * Bx, +e,. 


Variabila Y condiţionată de X este de medie 4, , respectiv: 


H, —& * PX , pentru X = x; , adică: 


y, - MIY/X2x]*£, =y, +E =a+Px,+e, 


Parametrii ecuaţiei de regresie, într-un model de regresie simplu liniar, 
Y=a +PX+e,sunt: 
æ — ordonata la origine (valoarea variabilei Y când X = 0); 
B — panta dreptei, numită şi coeficient de regresie. 


Valoarea parametrului de regresie B arată gradul de dependență dintre 
variabile, respectiv cu cât creşte sau scade în medie variabila Y, la o modificare 
cu o unitate a variabilei X. 

Semnul parametrului de regresie 2 indică direcția legăturii dintre cele două 
variabile corelate, şi anume: 

P > 0 — legătură directă (pozitivă); 

p = 0-—nu există legătură; 

B < 0 -— legătură inversă (negativă). 

Y 


Vi 


Cx; vi) *«— — Linia de regresie: 


T y-atbx 
Eroarea: 


ej- yi - (a + b xi) 




















X X i X 


Figura 9.5 Linia de regresie $i eroarea 
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In ecuația de regresie, parametrii a si Ø sunt necunoscuți. În practică, 
parametrii unui model de regresie sunt estimati pe baza datelor unui eşantion 
observat, folosind estimatorul y=a+bx, 


unde: a şi b sunt estimatii ale parametrilor a şi 2. 


Valoarea £; a variabilei aleatorii € este estimată prin e; = y; - (a  bx;) si 
reprezintă distanța oricărui punct (xi, y; ) faţă de linia de regresie, p=a+bx, 
(vezi figura 9.5). 


9.3.2 Demersul analizei de regresie 


Stabilirea şi analiza modelului de regresie presupun parcurgerea următorului 
demers: 

- construirea corelogramei, respectiv a norului de puncte (diagrama de 
dispersie sau Scatterplot); 

- aproximarea formei legăturii printr-un model de regresie şi scrierea 
ecuației corespunzătoare. Se pot folosi metode tabelare şi metode 
grafice. De regulă, pentru aproximarea modelului de regresie, adică a 
modelului care exprimă cel mai bine relația dintre variabile, se 
ajustează vizual diagrama Scatterplot; 

— estimarea parametrilor ecuaţiei de regresie (pe baza metodei celor mai 
mici pătrate) şi interpretarea regresiei în funcție de semnul şi valoarea 
parametrilor modelului de regresie; 

— testarea semnificației parametrilor de regresie. 


9.3.3 Aproximarea modelului de regresie folosind SPSS 


Pentru a explica acest demers, folosim datele prezentate în tabelul 9.1, cu 
privire la cantitatea de îngrăşăminte şi producţia obţinută la hectar. Dorim să 
estimăm producţia de grâu la hectar în funcție de cantitatea de îngrăşăminte. 


Construirea diagramei Scatterplot. Construirea diagramei Scatterplot cu 
ajutorul SPSS presupune efectuarea următorilor paşi: 

- Din meniul Graphs, se selectează comanda Scatter, care deschide 

fereastra Scatterplot (vezi figura 9.6); 

- Din fereastra Scatterplot, se alege tipul de diagramá dorit, in cazul 
nostru Simple, şi se acționează butonul de comandă Define, care 
deschide fereastra Simple Scatterplot pentru a defini elementele pe baza 
cárora SPSS va realiza diagrama; 
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-"1 Simple Scatterplot 















4% Cantitatea de ingrasam 


| ds ai Set Markers by Help 
Simple atrix PED 


N 


2 


e 9 e "^ ASA | jesa Label Cases by 
aat Dvenlay — [Xs 31 : [ama ———— 
^* | PA maai) « 


Template 




















[ Use chart specifications ftom 


es] 





Titles.» J Options. 
acri ERG e 


5 




















Figura 9.6 Ferestre de dialog Scatterplot 


În fereastra Simple Scatterplot, selectăm variabilele considerate si le 
mutám în zonele corespunzătoare, şi anume: variabila dependentă în 
zona Y Axis, variabila independentă în zona X Axis, iar numele 
unităţilor observate în zona Label Cases by; 
- Cu ajutorul butoanelor de comandă Titles şi Options se stabilesc liniile 
pentru titlu si subtitlu si, respectiv, se definesc anumite optiuni; 
Activánd butonul OK se comandă obținerea output-ului (vezi figura 9.7). 


| 





40.00 = e Linear Regression 


P d 
Cantitatea de producpie/ha = 0.50 + 7.50 * ingras 
R-Square = 0.97 Z 


| 
30,00 4 pi d 


20.00 4 4 c 


Cantitatea de producpie/ha 





— —— —1 
1.00 2.00 3,00 4.00 5.00 


Cantitatea de îngrasaminteiha 











Figura 9.7 Legătura dintre cantitatea de îngrăşăminte şi producția de grâu la ha 
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Legătura dintre variabilele considerate în exemplul dat poate fi aproximată, 
aşa cum rezultă din diagrama Scatterplot, printr-o dreaptă de regresie. 







9.3.4 Estimarea parametrilor modelului de regresie 





Pentru estimarea parametrilor unui model de regresie se utilizează, de regulă, 
metoda celor mai mici pătrate (MCMMP). 
Aplicarea MCMMP presupune minimizarea expresiei: 








S= Ye =} (y; ji F = minim. 


Pentru y = a +bx, obținem: 






; 2 uu 
S-Y(y,;-a-bx,)' = minim. 


Rezolvarea problemei de minim impune două condiții: 
l. anularea derivatelor parţiale de ordinul întâi ale lui S în raport cu a şi b; 
2. matricea derivatelor parţiale de ordinul doi să fie definită pozitiv. 







l. Derivatele parţiale de ordinul întâi se obțin pe baza relaţiilor: 












e = 2? ( yj —a- bx; )(—1) =0, 

ca | 
à -2X(y,-a-by)(-x)-0, i=l,n, 

C 


din care rezultá un sistem de ecuatii normale sub forma: 







na t bYx,7 Xy, 


aXx tbXxi-Xxy, i-Ln. 


2. Derivatele partiale de ordinul doi sunt: 







A 2 A2 
as 5 OS i 0“S 
2 x i) 
Qa* Qaob b^ 








= po pl 


Matricea derivatelor parţiale de ordinul doi 





i 2x; 
2x Xx 


este definitá pozitiv, deoarece: 






nx x? -(Xx,) - no? »0. 
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Rezolvarea sistemului de ecuaţii normale, printr-una din metodele cunoscute 
(metoda determinantilor, metoda Doolittle etc.), conduce la obținerea estimatiilor 
a şi b ale parametrilor modelului de regresie. 


Aplicând metoda determinantilor, rezultă următoarele relaţii de calcul pentru a 








şi b: 
sis ib nXxjy;-XxiZyi — 
) = — 1-213; 
A v.2. (Y. 
ć n2xi—-(2xi) 
-—— à 
z Aa Ly Lx Exx Yi 
T 2 = 4 
4 n xi — (2 xi) 


a-y-bx. 


Observaţie! a şi b reprezintă valori de sondaj, estimafii ale parametrilor a şi J, 
calculate la nivelul unui eşantion, prin aplicarea metodei celor mai mici pătrate. 


Estimarea prin interval de încredere a parametrilor a şi f. Estimarea prin 
interval de încredere se bazează pe distribuțiile de selecție ale estimatorilor & ŞI 


B ai parametrilor a şi A 


Pentru modelul liniar simplu, se poate demonstra că estimatorii parametrilor 
urmează o lege de distribuţie normală şi sunt nedeplasati: 


ye? 


2 2 i 2 


&-N(ajooi) M(G)sa; V(å)=04;; 04  —— —— 79: 
HX, 


Li 


a 


1 


Estimaţiile pentru varianta estimatorilor parametrilor « şi B, respectiv pentru 
varianta erorilor, se calculează după relaţiile: 


— varianta estimatorului & : 
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— varianta estimatorului ß : 


) 
^5 


— 


Sa 
87 : x 
p x Bc x) 
Li 


— varianta erorilor (o? ): 








Intervalul de încredere pentru coeficienţii de regresie a şi p, estimat pentru 
un eşantion observat, este definit de relaţiile: 
Ela 


a? 


DEL 58 


Estimatiile punctuale a si b pentru coeficienţii de regresie a si f) se află pe 
baza elementelor de calcul din tabelul 9.2. 
Ecuatia estimată este: 


y=a+bx=0,5+7,5x. 


Tabelul 9.2 Elemente de calcul 









































Xi | yi Xj Xj; Yi Jy x; =% ( x,—-x j^ e, | e 

t dd 2 3 4 5 6 7 8 9 10 
10| 1| mi 100| 80 -2 | || 2 4 
2| 15 4| 30| 225| 15,5 - 1| -05| 025 
3 20 9 60 400 23,0 0 0 -3.0 9.00 
4| 30| 16| 120| 900| 30,5 l| I | -0,5| 025 
3 40 25 200| 1600| 38.0 2 4 2| 4,00) 
15| 115] ss[ 420| 325] 1150] : 10 | 00[ 17.50] 
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Calculul estimatiei varianfei erorii. 
Considerând datele din tabelul 9.1, s-au calculat: b=7,5 şi X(x - 3)? =10 
(coloanele 7 si 8 din tabelul 9.2). Valorile s; şi s, se pot calcula pe baza 
elementelor din tabelul 9.2, coloanele 9 şi 10. 

Estimatia varianţei erorii este: 








Estimatia varianţei estimatorului p este: 


a 


E s 5,83 - : 
aT - = 70 = 0,583: s- =0,76376 (vezi tabelul 9.6). 
P 5 B 
S D ux 





Calculul testului t Student: 


b 7 5 
= = . = 981 98. 


sp 0,76376 





cale 


Pentru exemplul considerat, a rezultat o valoare tale = 9,82 (vezi tabelul 9.6), 
iar pentru valoarea teoretică citim din tabelul Student, pentru œ/2 = 0,025 si 
n-2=3, (5955.3 = 3,162. Ca urmare, pentru t 


cale > to.025:3 » Coeficientul de regresie 


f este semnificativ diferit de 0, adică variabila X explică variabila Y. 


Determinarea intervalului de încredere. Intervalul de încredere pentru coefi- 
cientul de regresie p, considerând un risc a = 0,05, este prezentat în figura 9.8 şi 
este definit de relația: 














139) 
Un 
N 
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Figura 9.8 Distribuția de selectie a estimatorului P 


şi intervalul de încredere 


Astfel, folosind datele din exemplul considerat anterior, pentru un risc 
a = 0,05, rezultă, la nivelul eşantionului observat, următorul interval de încredere: 


I.C. = (7,5 + 0,76376 -3,182) =[5,07; 9,93]. 


Putem spune cá ne asumám un risc de 5% ca valoarea adevărată a coeficien- 
tului de regresie £ să nu fie acoperită de intervalul [5,07; 9,93]. 

Dacă intervalul de încredere pentru P ar contine valoarea 0, atunci nu s-ar 
respinge ipoteza H}, ceea ce nu este cazul în exemplul nostru, deci factorul X 
influențează semnificativ variabila Y. 


9.3.5 Estimarea parametrilor modelului de regresie folosind 
SPSS 


Procesul de estimare a parametrilor unui model de regresie în SPSS este 
cunoscut ca fitting the model şi presupune parcurgerea demersului: meniul 
Analyze — comanda Regression — opţiunea Linear, prin care 
fereastra de dialog Linear Regression (vezi figura 9.9). 


se deschide 
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Figura 9.9 Fereastra de dialog Linear Regression 


În fereastra dialog Linear Regression selectăm variabilele considerate si le 
mutám in zonele de lucru corespunzátoare. Ín exemplul nostru (vezi tabelul 
9.1), selectám variabila rezultativá prod si o mutám in zona Dependent, iar 
variabila factorialá ingras — in zona Independent. În zona Case Labels mutám 
firma. 

În continuare se parcurg următorii paşi: 

- Alegem din lista Method, ca metodă de lucru, opțiunea Enter; 

- Activáim butonul de comandă Statistics care deschide fereastra de 
dialog Linear Regression: Statistics în care bifăm casetele de validare: 
Estimates, Confidence intervals, Model fit şi Descriptives | vezi figura 
9.10); 

_ Butonul de comandă Continue determină revenirea în fereastra Linear 
Regression în care activăm butonul Plots, care deschide fereastra 
Linear Regression: Plots; 

În fereastra de dialog Linear Regression: Plots, selectám si mutàm 
SRESID in zona Y, respectiv ZPRED in zona X. Pentru Standardized 
Residual Plots, bifám casetele de validare Histogram şi Norme | 
probability plot; 

Butonul de comandă Paa determină revenirea în fereastra Linear 
Regression în care activăm butonul Save; 

În fereastra Linear eE Save (vezi figura 9.11), pentru 


j 


p i A] E RER fn acata f l-od pentr DProdietion 
Predicted Values bifám caseta Unstandardized, pentru Frediction 





Intervals  bifăm caseta Mean, iar pentru Residuals 


T j 27] srir ori’ 
Unstanaaralizea, 
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Linear Regression; 


Butonul OK comandă obținerea output-ului în fereastra de rezult 


Actionám butonul de comandă Continue pentru a reveni în fereastra 


valorilor estimate în fişierul Data Editor. 
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Figura 9.10 Ferestrele Statistics şi Plots pentru un model de regre 


Linear Regression: Save 
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Figura 9.11 Fereastra dialog Linear Regression: Save 
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În fişierul Data Editor, în foaia Data View, SPSS completează coloane 
distincte cu valorile estimate pentru variabila dependentă, valorile reziduale şi 
limitele inferioară şi superioară ale intervalului de încredere. 

Pentru exemplul considerat, rezultatele estimării sunt prezentate în tabelul 9.3. 


Tabelul 9.3 Valori estimate pentru producția de grâu la ha, pe baza 
esantionului de firme prezentat în tabelul 9.1 







































firma | ingras | prod | 1 | Imci 1 | umci 1 || 
[a 1.00 10.00 204619. 13.95381 | 
b 2.00 15.00 11.29002 
C 3.00 20.00 
jd 4.00 30.00 30 
E 5.00 40.00 619 
Fereastra de rezultate — Output-ul — pentru analiza de regresie conține: 


Model Summary, ANOVA, Coefficients, Normal P-P plot si Scatterplot. 


Tabelul Model Summary prezintă valoarea coeficientului de corelație (R), 
valoarea raportului de determinatie (R^), valoarea ajustată a lui R si eroarea 


standard a estimatiei. Pentru exemplul considerat, Model Summary este 
prezentat în tabelul 9.4 (vezi şi output-ul din figura 9.4) 


Tabelul 9.4 Model Summary, cazul regresiei simple 
Model | R R Square Adjusted R Std. Error of the 
| _ | | Square Estimate | 
] 985 970| 960) 2.4152 














a Predictors: (Constant), Cantitatea de îngrasaminte la ha 
b Dependent Variable: Productia de grau la ha 


Valoarea R arată dacă există sau nu o corelaţie între variabila dependentă 


(rezultativa Y) şi variabila independentă (factoriala X). Acest indicator 1a 





valori între —1 si | (vezi paragrafele 9.2.1 şi 9.2.2). 
Interpretarea modelului. In interpretarea modelului, se foloseşte coeficientul 


de determinatie, R^. 




















N 
un 
[o 
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Raportul de determinatie R^ arată proportia variatiei variabilei dependente 
explicate prin modelul de regresie si este folosit pentru a evalua calitatea 
ajustării (alegerea modelului). 

R? ia valori între 0 şi 1. Dacă R° este egal cu 0 sau are o valoare foarte mică. 
atunci modelul de regresie ales nu explicá legátura dintre variabile; relatia 
dintre variabila dependentá si variabila independentă nu coincide cu modelul 
ales, de exemplu, liniar. Dacă R° este egal cu 1, atunci toate observaţiile cad pe 
linia de regresie, deci. modelul de regresie explicá perfect legátura dintre 

rariabile. Ca urmare, R^ este folosit pentru a stabili care model de regresie este 
cel mai bun. Aceastá metodá de alegere a modelului de regresie potrivit este 
recomandată pentru modelele care nu contin un număr mare de variabile. 

Pentru exemplul considerat, a rezultat o valoare R=0, 985, respectiv, R^— 0,970, 
ceea ce ne arată că între cantitatea de productie/ha şi cantitatea de îngrăşă- 
minte/ha există o legătură liniară, directă, foarte strânsă (vezi tabelul 9. 4). 


Tabelul Regression ANOVA prezintă rezultatele analizei variantei variabilei 
dependente sub influenţa factorului de regresie şi a factorului reziduu. Adică 
prezintă informaţii asupra sumei pătratelor abaterilor variabilei dependente, 
datorate modelului de regresie şi factorului reziduu, gradele de libertate, 
estimatiile variantelor datorate celor două surse de variație (regresie şi 
reziduu), raportul F şi Sig. (vezi tabelul 9.5). 


Tabelul 9.5 ANOVA pentru regresie 

















Model Sum of df Mean F | Sig. 
Squares Square | a | 
I|Regression | 562.500 l| 562.500 96.429] .002| 
Residual ITE 3 m | 
| Total 580.000 4 | d 





a Predictors: (Constant), Cantitatea de ingrasaminte la ha 
b Dependent Variable: Productia de grau la ha 


Statistica test F se obţine ca raport între media pătratelor abaterilor datorate 
regresiei şi media pătratelor abaterilor datorate reziduului, calculate cu gradele 
de libertate corespunzătoare. Această statistică test este folosită pentru testarea 
modelului de regresie, adică a ipotezei prin care se presupune că panta dreptei 
(£1) este 0, respectiv, pentru regresia multiplă, B. ps: Ba = 0. 
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Dacă testul F ia o valoare mare, iar valoarea Sig. corespunzătoare statisticii 
F este mică (mai mică decât 0,05), atunci variabila independentă explică 
variația variabilei dependente şi invers. 

În exemplul considerat, valoarea Sig. pentru F este mai mică decât 0,05, 
deci relația liniară dintre cele două variabile considerate este semnificativă 
(vezi tabelul 9.5). 


Tabelul 9.6 Coeficientii de corelaţie 



































E Unstandardized | Standardized | t Sig. 
Coefficients | Coefficients 
Model | B Std. Beta 
dS | Error i 
| (Constant) (500) |533 .197] .856 | 
Cantitatea de (7:500 764 | 985  |.820 |(.002 
(ingrasaminte la ha| | * | 











a Dependent Våriable: Productia de grau la ha 


Coeficientii de regresie. Tabelul Coefficients (vezi Tabelul 9.6) prezintà 
coeficientii nestandardizati ai modelului de regresie estimat, erorile standard 
ale acestora, coeficienţii de regresie standardizati cu erorile standard 
corespunzătoare, precum şi valorile statisticii test 7 şi valorile Sig. 
corespunzătoare. 

Coeficientii de regresie standardizati sunt folosiţi atunci când într-un model 
intră mai multe variabile independente exprimate în unități de măsură diferite, 
în scopul facilitării comparării acestora. 


Testarea parametrilor modelului de regresie se face cu ajutorul testului ż, 
pentru a afla care este probabilitatea ca fiecare parametru să fie nul : 


Ho :B = 0 
Pentru exemplul dat, valoarea Sig.=0.002 este mai mică decât 0.05, arătând 
că D (panta dreptei de regresie) corespunde unei legături semnificative între 


| c 


| cele douá variabile. 


L. 
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9.4 Regresia multiplá in SPSS 
9.4.1 Modelul de regresie multiplă 


Un model statistic de regresie multiplă este definit de relația: 
Y-atf,X,*B;Xo t.t B,X,e, 
unde: 
Y este variabila dependentă ; 
Xj, X5, ..., X, sunt variabile independente (predictori); 
g este variabila aleatorie eroare (reziduu); 


æ, B, sunt coeficienţii de regresie. 


9.4.2 Selecția variabilelor independente într-un model de 
regresie 


Pentru a găsi cea mai bună combinaţie de variabile independente care explică 
variația variabilei dependente, într-un model de regresie, SPSS oferă mai multe 
metode: Forward, Backward, Stepwise. Prin aceste metode se pot selecta 
variabilele care explică optim variaţia variabilei dependente. Aplicarea lor pre- 
supune introducerea şi eliminarea variabilelor independente în model în funcţie 
de gradul de semnificație a legăturii lor cu variabila dependentă, până când nici 
o variabilă nu mai poate fi introdusă sau eliminată din ecuaţia de regresie. 

l. Forward (introducerea pas cu pas). Prin acest procedeu, variabilele 
independente sunt introduse în model una câte una (pas cu pas), în ordinea 





C 


importanţei lor. In pasul întâi, este introdusă variabila care este ce 
corelată, pozitiv sau negativ, cu variabila dependentă. În pasul doi (si 


mai putern 


următorii), se introduc variabile mai puţin corelate. La fiecare pas este testată 
ipoteza de nul asupra coeficientului de regresie a variabilei introduse, adică se 





testează dacă coeficientul de regresie corespunzător este zero. Este folosită 
statistica fest t (respectiv, statistica F care este pătratul statisticii 7). Paşii se 
opresc când un prag de semnificație stabilit pentru F nu mai este atins. 

2. Backward (eliminarea pas cu pas). Acest procedeu este cel mai des 
folosit în practică. Începe cu toate variabilele considerate în model şi la fiecare 
pas se elimină cel mai slab predictor (variabilă independentă). Cel mai slab 


predictor este definit de variabila independentă cel mai puțin importantă, adică 
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variabila care determină cea mai mică reducere a statisticii Fisher, F. 
Variabilele sunt eliminate până când un prag de semnificaţie stabilit pentru F 
nu mai este atins. 

3. Stepwise (selecția pas cu pas). Acest procedeu începe la fel ca Forward, 
dar la fiecare pas testează variabilele existente deja în model, pentru a le 
elimina. Aceasta este metoda cea mai folosită, în special când există corelaţii 
între variabilele independente. De exemplu, introducerea celei de-a patra 
variabile poate diminua importanţa unei variabile deja introduse şi, ca urmare, 
aceasta este eliminată din model (în Forward aceasta rămâne în model). 


9.4.3 Exemplu de regresie multiplă folosind SPSS 


Pentru realizarea în SPSS a unei analize de regresie multiplă, vom considera 
datele din reg pib inv cs pocup.sav, referitoare la regiunile României în anul 
2000 şi procedeul Backward. 
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Figura 9.12 Fereastra de dialog Linear Regression, metoda Backward 


c 


Paşii demersului sunt cei prezentaţi in cazul unui model de regresie liniară 
simplă, cu elementele specifice unui model de regresie multiplă. Astfel, în 


fereastra Linear Regression selectăm (vezi figura 9.12): 

— în zona Dependent: câştigul salarial nominal net (cs); 

— în zona /ndependent(s): produsul intern brut regional (pib), investiţiile 
în 2000 (înv) şi populația ocupată în 2000 (pocup); 
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- în zona Method: se alege metoda Backward; 

- în zona Case Labels: regiunile României (reg); 

- jn fereastra Linear Regression: Statistics, desc 
comandă Statistics, se activează casetele de va 
Collinearity diagnostics. 


hisă prin butonul de 
lidare Descriptives si 


In tabelul Correlations se afişează coeficienţii de corelaţie Pearson (Pearson 
Correlation), valoarea semnificatiei (Sig.) pentru fiecare coeficient de corelatie 
şi numărul cazurilor considerate in studiu (N). 


Tabelul 9.7 Matricea corelaţiilor parțiale 


Correlations 


Castigul 
salarial 
nominal net 
in anul 2000 
Pearson Correlatior Castigul salarial nominal 
net in anul 2000 
PIB intern brut re! 
locuitor in anul 


1.000 


001 
investitiile in 2000 877 


Populatia ocupata in 2000 


(mii persoane) seb 





Sig. (1-lailed) Castigul salarial nominal 
nul 2000 
PIB intern brut rec à 
locuitor in anul 2000 (lei) 





investitiile in 2000 


Populatia ocupata in 2000 
(mii persoane) 





arial nominal a | 

2000 , ' i | 

em brut regional pe 
n anul 2000 (lei) 




















Pentru exemplul dat sunt prezentate corelatiile simple ale fiecărei variabile 
independente (predictor) cu variabila dependentă cs — câștigul salarial nominal 
net (vezi matricea corelatiilor din Tabelul 9.7). 

Se observă că valoarea coeficienţilor de corelație de pe diagonală este egală 
cu 1l, deoarece fiecare variabilă este corelată perfect cu ea însăşi. Se constată că 
legătura cea mai semnificativă este între câştigul salarial nominal net si 
investiții. Între variabila dependentă — cs — şi variabila independentă — inv 
există o legătură directă, puternică. Valoarea coeficientului de corelație este 
egală cu 0,877, cu o valoare Sig. mai mică decât 0,05. 
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Tabelul Variable Entered/Removed furnizează o prezentare a rezultatelor 
eliminării pas cu pas a variabilelor (vezi tabelul 9.8). 

SPSS elaborează, la început, un model cu toate variabilele independente, 
folosind metoda Enter, apoi, în fiecare pas, creează un model, eliminând 
variabila care are cea mai redusă contribuţie. 


Tabelul 9.8 Variabilele introduse în model şi variabilele eliminate pas cu pas 








Variables Entered/Removed^ 


Variables 


Entered :emoved Method 


Populatia 


pe 
PIB 
brut Enter 


in 2000 


Backward 


= (criterion 
Populatia " 


ocupata in 
2000 
persoane) 





y o 
F-to-remo 
ve >= 
100) 





Backward 


PIB intern 


100) 








2000 (lei) 





a. All request riables entered 









b. Depende 


nominal net in 


Castigul salarial 
2000 





anul 














In exemplul considerat, sunt eliminate, pe rând, în ordinea celei mai slabe 
influențe asupra câştigului salarial nominal net, variabila populaţie ocupată şi 
variabila produs intern brut pe locuitor. 


Tabelul Model Summary prezintă pentru fiecare model de regresie valoarea 
coeficientul de corelaţie (R), valoarea coeficientului de determinatie (R^) si 
eroarea standard. Valoarea R^ creşte pe măsură ce se introduc mai multe 
variabile în model. Includerea de variabile irelevante duce, de asemenea. la 
creşterea erorii standard. 
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Tabelul 9.9 Model Summary, cazul regresiei multiple 





Model Summary? 


Change S 








| Adjusted d | RSquare 
R Square R Square > | Change 











a. Predictors: (Constant), Populatia ocupata in 2000 (mii persoane), PIB intern brut regional pe locuitor in anul 2000 
investitiile in 0 





b. Predictors: (Constant), PIB intem brut regional pe locuitor in anul 2000 (lei), investitiile in 2000 
C. Predictors: (Constant), investitiile in 2000 


d. Dependent Variable: Castigul salarial nominal net in anul 2000 








În exemplul dat, valoarea R, valoarea R° ajustat şi eroarea standard arată că 
cel mai bun predictor (variabila independentă care estimează cel mai bine 
variabila dependentă) este variabila „investiţii”. 

Aceeaşi concluzie se poate trage considerând rezultatele din tabelul 
ANOVA (vezi tabelul 9.10). Dacă valoarea semnificației statisticii F este mică 
(Sig. este mai mică decât 0,05), atunci variabilele independente explică variația 
variabilei dependente. Cea mai mică valoare Sig. corespunde modelului care 
explică variaţia câştigului salarial nominal net în funcție de investiţii. 


În tabelul coeficienţilor de regresie, în prima parte apar coeficienţii de 
regresie, erorile standard, valoarea statisticii fest t pentru fiecare coeficient, 
precum şi valoarea Sig. În cazul unei regresii multiple, apar, în plus față de 
cazul unei corelaţii simple, statisticile de coliniaritate (collinearity statistics), 
toleranța (tolerance) şi factorul de inflație a variantei (variance inflation 
factor — VIF). 


Coliniaritatea exprimă existenţa unei corelaţii puternice între variabilele 
independente. În astfel de situații se calculează statisticile tolerantei; 
considerând numai variabilele independente, variabila dependentă este exclusă 
din model. 
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Tabelul 9.10 ANOVA 





ANOVA? 











b| = 
„B61E+ 
116E+ 









































tant), Populatia ocupata in 2000 (mii persoa 


'redictors: (Cons 


regional pe lacuit 


he), PIB intern brut 





(lei), investitiile in 2000 


or in anul 2000 











. Predictors: (Constant), investitiile in 2000 





d. Dependent Variable: C astigul salarial nominal net in anul 2000 














Toleranfa fiecărei variabile X; se calcuează după relaţia: 
Toleranta = 1 — R;, 
unde: 


R? este pătratul coeficientului de corelaţie multiplă a variabilei X; cu toate 


celelalte variabile independente. 


VIF este reciproca tolerantei. 

Toleranta poate lua valori de la 0 la 1. Cu cát valoarea tolerantei este mai 
mică, mai apropiată de zero, cu atât variabila independentă X; este explicată 
printr-o combinaţie liniară a celorlalte variabile independente. Ca urmare, 
explicarea variabilei dependente prin această variabilă poate fi considerată ca 
având prea puţină acuratețe. 
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Tabelul 9.11 Coeficientii de regresie 








Coefficients? 































































































Standardi 
zed 
Jnstandardized Coefficien | 
Coeficients ts 95% Confidence interval fora | Collinearity Statistics 
NRCIOIS L | 3 
Std. Error Beta d | Upg Tolerance | VIF 
ant) 2191707 2170142 1.010 38 
ntem brut regiona aai " " a AA A. A m 
-401E-03 026 - 031 -155 887 -.087 079 202 4854 
| 
42.296 27.310 951 1.549 219 -44.515 129.208 186 5.367 
Populatia ocupata in 2000 z NISIA ERA | R 
ODP EO 81670 | 870.088 081 094 931 | -2687.337 | 095 |  10566| 
(mii persoane) | 
2391840 | 350602.0 6.822 002 | 1418412850 
em brut regional pe : : 3s 
3973 Pe | 618.03 010 ETT 604 57 -035 02 975 | 10 
00 (lei) 
10.352 839 3.863 975 1.025 
(Cons 168505.7 | 13117 | 
investitiile in 2000 39.010 9.552 4.084 | 














a. Dependent Variable: Castigul salarial nominal net in anul 2000 

















Diagnosticul coliniaritátii presupune analiza rezultatelor din tabelul 


Collinearity Diagnostics (vezi tabelul 9.12). 


Tabelul 9.12 Diagnosticul coliniaritáfii 








Collinearity Diagnostics? 


Variance Proportions 





PIB intern 
brut regional 
pe locuitor in 





Model Dimension 


Eigenvalue 


Condition 
Index 


anul 2000 


(Constant) (lei) 


investitiile 
in 2000 










































net in anul 2000 


a. Dependent Variable: Castigul salarial nomina 











Eigenvalue dá o indicatie asupra numărului de legături care există între 
variabilele independente. Când mai multe eigenvalues sunt apropiate de zero, 
variabilele sunt puternic intercorelate. 
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Indicii de condiţie se calculează ca rădăcină pătrată din raportul dintre 
valoarea eigenvalue cea mai mare şi valoarea eigenvalue a fiecărei dimensiuni. 
Un indice mai mare de 15 arată că există o posibilă problemă de coliniaritate, 
iar o valoare mai mare de 30 indică probleme grave de coliniaritate. Aceste 
situaţii le întâlnim în exemplul considerat: pentru modelul 1, indicele 
corespunzător dimensiunii 4 (variabila „populația ocupată”) are valoarea de 
102,030, respectiv, pentru modelul 2, indicele corespunzător dimensiunii 3 
(variabila ,,PIB") are valoarea de 18,721 (vezi tabelul 9.12). 


Proporția varianţei evidenţiază contribuţia fiecărei variabile la variantà. 
Variabilele care au valori mari pentru acest indicator arată probleme de 
coliniaritate. În exemplul dat, variabilele cu probleme de coliniaritate şi care 
influențează substantial varianta sunt: 

- populatia ocupatá, cu o proportie de 0,97; 

— PIB regional, cu o proporție de 0,91. 


Tabelul Excluded Variables prezintá informatii despre variabilele care sunt 
excluse la fiecare pas (vezi tabelul 9.13). 


Tabelul 9.13 Variabile excluse 


Excluded Variables? 





Collinearity Statistics 





Partial | Minimum 

Model ( Correlation Tolerance Vi Tolerance 

2 Populatia ocupata in 2000 

2 op atia ocupata 1 2000 4 9.464E-02 566 9 464E-02 
(mii persoane) | 





3 Populatia ocupata in 2000 - : 2187 457 
(mii persoane) . TUERI A 
PIB intern brut regional pe 4 275 
locuitor in anul 2000 (lei) F di i us 














a. Predictors in the Model: (Constant), PIB intern brut regional pe locuitor in anul 2000 (lei), investitiile in 2000 


b. Predictors in the Model: (Constant), investitiile in 2000 




















c. Dependent Variable: Castigul salarial nominal net in anul 2000 














Beta in este coeficientul de regresie care ar rezulta dacá in pasul urmátor 
s-ar păstra in model variabila exclusă. 


Statistica test t şi valoarea Sig. sunt folosite pentru testarea ipotezei de nul 
cu privire la coeficienţii de regresie, adică a ipotezei că între variabila 
dependentă şi variabila independentă nu există o legătură semnificativă. 

În exemplul considerat, se constată valori Sig. foarte mari (comparativ cu 
0.05), ceea ce nu ne permite să respingem ipoteza de nul, a inexistente! unei 
legături semnificative între variabila dependentă — câştigul salarial — si 
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variabilele independente — populația ocupată si PIB regional pe locuitor, la 
nivelul anului 2000, în România. 

Se observă, de asemenea, valori mici pentru toleranță şi valori mari pentru 
VIF, ceea ce denotă existența multicoliniaritátii care determină o variantá mare 
a coeficientului de regresie, şi, ca urmare, o instabilitate a estimatiei. 

Respectarea ipotezelor cerute de analiza de regresie (erorile sunt distribuite 
normal, cu media zero; erorile au variantá constantă; erorile sunt independente 
unele de altele) poate fi verificată grafic folosind diagramele P-P Plot şi 
Scatterplot. Figurile 9.12 si 9.13 arată cá sunt respectate aceste ipoteze. 
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Figura 9.12 Diagrama Normal P-P Plot 
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Figura 9.13 Diagrama Scatterplot 
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